Problemas no disco do PowerEdge 6650

1

Aqui está um estranho que eu tenho lutado por um tempo. Eu tenho um antigo servidor Dell PowerEdge 6650 fora da garantia com um controlador PERC 3 / DC RAID controlando quatro discos SCSI Fujitsu 136GB U320 mais recentes (talvez um ano de idade) em uma matriz RAID5.

Talvez uma vez por mês, aproximadamente, um desses discos "falhe" aleatoriamente. Por falha, isso significa que o PERC decide que eles falharam e começa a apitar e disparar alertas. Tudo o que preciso fazer para resolver o problema é remover e recolocar o disco "com falha" e ele começa a ressincronizar o array. Quando a ressincronização estiver concluída, a luz do painel na parte frontal da máquina volta para o azul da cor laranja e o sinal sonoro pára.

A minha principal questão é o que está a fazer com que estes discos "falhem", quando na verdade estão perfeitamente bem. No começo eu pensei que poderia ser um problema de firmware, então eu reflashed cada componente flashable no sistema. BIOS, firmware PERC, firmware de disco, tudo.

Não parece haver uma causa ou evento que desencadeie uma das não falhas, acontece apenas aleatoriamente.

Não é exatamente um grande problema, mas é definitivamente algo que eu gostaria de resolver. A Dell não fornecerá suporte, pois a máquina está fora da garantia e seu website / fóruns são inúteis, como sempre.

    
por brian 19.11.2009 / 17:37

4 respostas

3

Gosto de executar o hardware antigo o maior tempo possível, mas substituo a máquina. Você vai ter dificuldade em fazer qualquer progresso na resolução deste problema.

Minha suspeita seria interação sutil entre o firmware nas unidades "com falha", possivelmente o backplane hot-swap e o controlador RAID. Ninguém na Dell ou na Fujitsu está testando essas unidades mais do que esse controlador, e é improvável que alguém esteja interessado em qualquer uma das empresas.

Você está colocando a matriz em risco toda vez que isso acontece, já que a matriz está se degradando e sendo reconstruída. Se uma falha legítima ocorrer em outro disco durante o processo de reconstrução, você estará em um cenário de falha de matriz. Espero que você tenha bons backups.

É frustrante, porque a adição de discos deve funcionar bem, mas com algo dessa idade, você é realmente melhor do que morder a bala e conseguir algo com suporte ativo do fabricante.

    
por 19.11.2009 / 17:52
1

A primeira coisa que eu teria dito seria atualizar o firmware, pois isso acontece com bastante frequência nos servidores PE com controladores PERC.

Só porque a matriz é capaz de reconstruir quando você reposiciona o disco, eu não acho que isso significa que a unidade está bem, pode estar saindo e é por isso que ela continua saindo da matriz . É por isso que quando a Dell me diz que só para recolocá-lo, tento fazer com que eles me enviem um novo (mesmo que eles provavelmente estejam me mandando um que alguém mandou de volta: - /).

    
por 19.11.2009 / 17:50
1

Eu tive os mesmos problemas com um Power Edge 2650, na verdade, era um problema do PERC, se você tem algum sobressalente, tente trocá-lo.

    
por 19.11.2009 / 17:51
0

Você disse que já exibia o firmware do cartão de ataque. Você atualizou o driver para ele ao mesmo tempo? Em chamadas de suporte anteriores com a Dell sobre unidades com falha, elas sempre foram irritantemente inflexíveis quanto ao fato de estarmos usando o firmware e o driver mais recentes para a placa de invasão.

Um deles até sugeriu que eu precisava reconstruir o array desde o início depois de atualizar o firmware para que a unidade parasse de funcionar. Felizmente, consegui que eles substituíssem a unidade antes de recorrer a isso (o que era o problema). Então não posso confirmar ou negar se a sugestão dele funcionaria.

Eu tive um último pensamento e só porque você não mencionou explicitamente. Você verificou se há uma atualização de firmware para as unidades reais?

    
por 19.11.2009 / 17:50