Por que nosso array raid falhou?

4

Temos um HP DL380 G3 antigo com unidades Ultra320 SCSI de 6x36 GB em um array RAID 10. Nós monitoramos as unidades com cuidado, pois elas são antigas - as indicações pré-falha SMART disseram OK. Então, 4 dias depois, duas unidades falharam (na verdade, as unidades podem não ter falhado fisicamente, mas há dados corrompidos em duas unidades). Como isso pode acontecer? Eu não sou um grande crente em coincidências e acaso.

Uma única falha no drive eu posso acreditar, mas várias falhas me levam a acreditar que há algo mais acontecendo. Ouvi dizer que o backplane SCSI no DL380 pode falhar - alguém pode confirmar isso por experiência? Devemos substituir o backplane SCSI? Devemos substituir todas as unidades quando reconstruímos a matriz?

Editar: examinei algumas estatísticas que registramos recentemente nas horas de execução acumuladas nas unidades dessa matriz. As duas unidades que falharam tiveram 0,6 e 2,7 anos de execução nelas. Isso me parece desconsiderar a teoria de que as unidades simplesmente se deterioraram exatamente na mesma proporção e, portanto, falharam muito juntas. A menos que os dados de horas acumuladas não sejam mais confiáveis do que o SMART?

    
por saille 21.01.2010 / 00:04

4 respostas

7

Múltiplos drives falhando em rápida sucessão não são tão raros quanto as pessoas parecem pensar. Os fracassos tendem a seguir o que é chamado de Curva da Banheira - uma alta taxa inicial à medida que os defeitos de fabricação são estressados, caindo para um nível relativamente baixo. baixa taxa para a vida útil típica das unidades e, em seguida, subindo novamente à medida que as coisas se desgastam à medida que elas passam a vida útil do projeto. As unidades são mecânicas e as unidades do servidor estão funcionando constantemente.

Quando uma unidade falha, outra falha ainda é apenas ligeiramente mais provável, mas essas falhas são geralmente acompanhadas por um aumento de tensão, paradoxalmente causado pelo processo de reconstrução da RAID, o que força as unidades a realizarem uma grande quantidade de IO intenso. / p>

Finalmente, a SMART não tem uma boa reputação por ser um indicador confiável de confiabilidade, há algum benefício, mas no geral não é ótimo - há alguns bons resultados de estudos de longo prazo do Google sobre isso que você pode encontrar aqui (Tendências de falha em uma população de unidades de disco grandes) .

A mensagem básica é que quando você está executando um pacote RAID por muito tempo, você assume um risco cada vez maior que muitos esperam (o número de relatórios de falhas de várias unidades aqui é prova disso). A segunda mensagem é que o RAID é algo a ser usado para aumentar a disponibilidade, em média, mas sempre verifique se você tem uma estratégia de backup aceitável, caso seja um daqueles que fica sem sorte.

    
por 21.01.2010 / 00:21
2

O G3 é bem antigo agora, acho que você está vendo o outro lado da curva do sino do MTBF.

    
por 21.01.2010 / 00:16
1

Você verificou seus registros de monitoramento ambiental? Alguma energia ou eventos de refrigeração?

    
por 21.01.2010 / 00:10
0

Não tenho experiência com o hardware da HP, por isso não posso falar sobre isso. Mas a SMART não é particularmente boa em prever falhas de unidade.

    
por 21.01.2010 / 00:11

Tags