É mais provável que o seu provedor esteja usando Discos Rígidos que não devem ser usados no RAID. As unidades SATA de consumo normal se enquadram nessa categoria.
O problema provável é que a unidade começou a ter erros de leitura incorrigíveis (UREs). Quando isso acontece em uma unidade de consumidor, a unidade fica lá e repete a operação de leitura (geralmente por 30 a 60 segundos) até que desista. O RAID aguardará a unidade informar o erro (30 a 60) segundos. Portanto, uma solicitação simples para alguns setores pode facilmente fazer com que o servidor fique paralisado enquanto a unidade com falha tritura essas operações de repetição de leitura.
As unidades destinadas aos RAID Arrays têm a Recuperação de Erros com Limite de Tempo (para unidades SATA). O TLER relata falhas de volta aos controladores rapidamente, de modo que o controlador possa responder de maneira inteligente a tais falhas (na maior parte de maneira inteligente, esperançosamente). SCSI (SAS também) funciona de forma um pouco diferente. O conjunto de comandos SCSI permite que o controlador especifique vários limites de esforço de recuperação nas unidades (MODE SELECT: RW ERR RECOVERY). Um controlador RAID deve configurar as unidades para falhar rapidamente, o controlador pode então testar se a unidade acha que está funcionando corretamente com o comando TUR, falha a unidade para fora da matriz se houver uma condição de verificação.