Múltiplos drives falhando em rápida sucessão não são tão raros quanto as pessoas parecem pensar. Os fracassos tendem a seguir o que é chamado de Curva da Banheira - uma alta taxa inicial à medida que os defeitos de fabricação são estressados, caindo para um nível relativamente baixo. baixa taxa para a vida útil típica das unidades e, em seguida, subindo novamente à medida que as coisas se desgastam à medida que elas passam a vida útil do projeto. As unidades são mecânicas e as unidades do servidor estão funcionando constantemente.
Quando uma unidade falha, outra falha ainda é apenas ligeiramente mais provável, mas essas falhas são geralmente acompanhadas por um aumento de tensão, paradoxalmente causado pelo processo de reconstrução da RAID, o que força as unidades a realizarem uma grande quantidade de IO intenso. / p>
Finalmente, a SMART não tem uma boa reputação por ser um indicador confiável de confiabilidade, há algum benefício, mas no geral não é ótimo - há alguns bons resultados de estudos de longo prazo do Google sobre isso que você pode encontrar aqui (Tendências de falha em uma população de unidades de disco grandes) .
A mensagem básica é que quando você está executando um pacote RAID por muito tempo, você assume um risco cada vez maior que muitos esperam (o número de relatórios de falhas de várias unidades aqui é prova disso). A segunda mensagem é que o RAID é algo a ser usado para aumentar a disponibilidade, em média, mas sempre verifique se você tem uma estratégia de backup aceitável, caso seja um daqueles que fica sem sorte.