PowerEdge R905 - “A bateria do compartimento da unidade de disco falhou”

3

Recentemente recebi um alerta de um PE 905 que eu gerencio: I1912 SEL Full . Verifiquei o SEL por meio da interface da Web do DRAC e vi a seguinte mensagem ser repetida 50 vezes hoje:

"The disk drive bay battery has failed"

Seguido alguns segundos depois pela mensagem equivalente de problema resolvido (infelizmente eu limpei o SEL para ver se eu ainda estava recebendo as mensagens antes que eu pudesse copiar suas palavras exatas).

O problema é que eu nem sabia que a unidade bay tinha uma bateria. (Não, não é?)

O único controlador RAID na caixa é um PERC 6 / i, e sua bateria é reportada como boa. Eu fiz não ver quaisquer erros ROMB (nem recebi alertas), nem nada mais para indicar que a bateria do PERC está ruim.

Escusado será dizer que pesquisei a mensagem de erro mas o melhor que consegui encontrar foi um artigo publicado em japonês. Via G traduzir o autor parece indicar que a mensagem pode indicar uma falha de bateria RAID ou falha iminente do controlador, por Dell.

Parece que ele substituiu o controlador e a bateria, resolvendo o problema. Mas as duas substituições eram necessárias? (Estou com um orçamento apertado e não, já não temos serviço / suporte Dell nesta máquina).

Com apenas uma postagem disponível sobre esse tópico, gostaria apenas de saber se alguém poderia lançar mais luz sobre esse erro. Eu ficaria feliz em fornecer todos os logs, etc, no entanto tudo, exceto que a mensagem no SEL parece ótimo. Na verdade, o erro não retornou na última hora desde que o registro foi limpo.

Obrigado!

    
por s.co.tt 24.09.2013 / 05:03

2 respostas

3

Parece que a mensagem de erro original foi um precursor de uma nova mensagem, que na verdade apresenta alguns resultados no Google. Depois de uma noite tranquila, comecei a receber as seguintes mensagens no log do meu sistema:

The storage battery has failed.
The storage battery is operating normally.

É o mesmo padrão mostrado na noite passada, mas com uma mensagem diferente.

Uma página da comunidade Dell Community reporta a descrição detalhada para o erro como:

The PERC RAID controller battery may have failed because of thermal exceptions.

Embora seja possível que seja um problema térmico localizado, a temperatura da placa do sistema é atualmente relatada como 26 graus. C, então não é um problema térmico em todo o sistema.

Um problema semelhante foi relatado com um PERC 5 / i em uma das soluções da Dell. listas de discussão que não apontam para causas térmicas, mas possível firmware ruim / antigo. (Meu f / w está atualizado).

No meu caso, depois de limpar o SEL novamente, tudo estava aparecendo bem com a bateria do controlador e nenhum novo evento apareceu no log. (Visto via OpenManage).

Eu iniciei um ciclo de aprendizado na bateria do controlador, e quase imediatamente agora foi reportado como degradado no OM. Posteriormente, o registro começou a ser preenchido novamente com as mesmas mensagens:

Com base nessas novas informações, estou bastante confiante de que o problema é a bateria. Eu irei substituí-lo ainda hoje quando puder chegar ao local do servidor.

Minha hipótese é que um ciclo de aprendizado começou na bateria e foi nesse ponto que a bateria começou a ser reportada como ruim. Talvez estivesse esquentando enquanto carregava, causando assim as mensagens repetitivas enquanto aquecia e depois esfriava.

Estou respondendo a minha própria pergunta porque espero que isso ajude qualquer pessoa que pesquisar minha mensagem de erro original (que, em uma pesquisa, não gerou resultados em inglês).

Felizmente, uma bateria de controlador ruim não é um problema para mim, porque a máquina em questão está conectada a uma SAN e a PERC é responsável apenas por um volume de sistema operacional local que não requer muita gravação. No entanto, uma coisa a ser tirada disso é que, se você confiar no cache de gravação e tiver vários controladores PERC que usam o mesmo tipo de bateria, mantenha pelo menos uma bateria extra à mão.

Atualização: Em nome da ciência, deixo o ciclo de aprendizado da bateria completo. Demorou um pouco, mas terminou com êxito e nenhuma nova mensagem de erro foi adicionada ao ESM Log / SEL.

É claro que a bateria ainda é suspeita e será substituída, mas eu recomendaria a qualquer um que experimentasse os sintomas que descrevi para tentar iniciar um ciclo de aprendizado.

    
por 24.09.2013 / 18:25
0

Tenho visto um comportamento semelhante em alguns sistemas Dell PowerEdge em que a bateria tinha cerca de cinco anos.

O que eu vi é que o cache do virtualdisk estava mudando repetidamente de write-back para write-through.

Quando liguei para o suporte da Dell sobre isso, eles me disseram que isso poderia ser um sinal de uma bateria que já não tem carga suficiente. Existe um estado em que a bateria ainda é reportada como "OK" no omsa, mas o nível não é alto o suficiente, no entanto. Você pode verificar isso via omsa-command-line:

omconfig storage controller action=exportlog controller=0 Isso criará um arquivo de log.

No Linux: /var/log/lsi_DDMM.log (dia e mês). Este é um arquivo ASCII (formato DOS) onde você verá detalhes sobre a bateria.

    
por 22.10.2013 / 15:33