- Nas unidades em que a troca a quente não é uma opção, muitos controles de invasão (por exemplo, mdadm no linux) têm um comando set-faulty que simula uma falha na unidade.
- Nas unidades em que o hot-swap está bem, arranje uma unidade!
Eu acho que seu teste deve cobrir os casos razoáveis que você planeja. Se você está tentando configurar um servidor no mato, as flutuações elétricas são conjuntos de testes razoáveis. Se você estiver em um centro de dados, o Contrato de serviço provavelmente cobre energia.
Se você acha que uma unidade descontroladamente explodindo dentro de um rack é razoável - então teste-a. Talvez você esteja configurando um servidor em um centro de comando em Bagdá. Mas mais uma vez, menos provável se você estiver no estado de Washington.
Como regra geral, seus testes devem cobrir todos os casos esperados:
- A direção é antiga e, eventualmente, fica ruim (encontre uma unidade em suas últimas pernas, coloque-a em funcionamento e bata até que ela falhe)
- O disco falha em um teste inteligente, mas parece bem, mas você quer substituí-lo apenas no caso
- Substituição geral da unidade por causa do upgrade de tamanho / desempenho ou você acabou de ouvir que o lote estava com problemas
E razoáveis casos extremos.
- Servidor de repente perdendo energia - ok.
- O próprio servidor é atingido por um raio - não muito.
- Rack caindo - ok.
- Rack atingido por caminhão - nem tanto.
- Dirija sendo empurrado - ok
- Dirija sendo fotografado - não muito.
E o mais importante - o RAID não protege contra drives que corrompem dados silenciosamente! Então, verifique se você está fazendo hashes e verificação de arquivos!