Vários servidores, falha de várias unidades em 12 horas?

3

No mundo da TI, acabei de ganhar a loteria duas vezes ...

Hoje tivemos um disco rígido com falha em uma matriz de ataque. Poucas horas depois tivemos outra falha na unidade em um servidor diferente .... Começamos a verificar todos os registros e sistemas ambientais imediatamente. A umidade é de 40%, a temperatura está em 75 *, sem poeira ou outras partículas voando ao redor. Verificamos os registros do no-break, sem picos relatados. Cerca de 3 horas depois, outro disco rígido falhou em um terceiro sistema ....

Para recapitular 3 HP DL380 G7, esses servidores são todos números de série seqüenciais. As unidades não são do mesmo lote, mas eu aposto que os controladores e placas da matriz são. A HP sairá pela manhã ... Enquanto isso, esperamos que isso não se torne um hábito ... Tivemos uma falha na unidade neste rack de servidor inteiro em 2,5 anos. Hoje 3 dentro de 12 horas!

O que mais deveríamos estar procurando? Alguém mais teve um problema semelhante?

Qualquer ajuda é muito apreciada. Este incidente consumiu nossas peças .... Se tivermos outra falha, estaremos procurando a HP para trocá-las.

Atualização: são unidades SAS de 10 GB rpm de 146 GB e uma unidade SAS de 300 GB e 10k rpm. Equipamento original da HP.

    
por DaffyDuc 28.01.2014 / 22:48

1 resposta

3

Essas coisas acontecem ... Você ficaria surpreso com o que eu vi com o mesmo equipamento em escala.

Você fez certo ao verificar seu ambiente para ESD , problemas de temperatura e energia.

Sendo unidades ProLiant DL380 G7, os controladores de matriz estão incorporados na placa de sistema. Os números de lote não são controlados com muita força lá. Eu não acho que isso seja algo além da coincidência. No entanto, esse pode ser um bom momento para algumas atualizações de firmware, já que falhas falsas no drive às vezes são sintomáticas de revisões ruins.

Como você tem suporte, permita que a HP lide com as peças / substituições e siga em frente :)

BTW - Seria útil detalhar as capacidades e o tipo de unidade envolvidos (SAS, SATA, Nearline SAS)

    
por 28.01.2014 / 23:01