Parece que a mensagem de erro original foi um precursor de uma nova mensagem, que na verdade apresenta alguns resultados no Google. Depois de uma noite tranquila, comecei a receber as seguintes mensagens no log do meu sistema:
The storage battery has failed.
The storage battery is operating normally.
É o mesmo padrão mostrado na noite passada, mas com uma mensagem diferente.
Uma
The PERC RAID controller battery may have failed because of thermal exceptions.
Embora seja possível que seja um problema térmico localizado, a temperatura da placa do sistema é atualmente relatada como 26 graus. C, então não é um problema térmico em todo o sistema.
Um problema semelhante foi relatado com um PERC 5 / i em uma das soluções da Dell. listas de discussão que não apontam para causas térmicas, mas possível firmware ruim / antigo. (Meu f / w está atualizado).
No meu caso, depois de limpar o SEL novamente, tudo estava aparecendo bem com a bateria do controlador e nenhum novo evento apareceu no log. (Visto via OpenManage).
Eu iniciei um ciclo de aprendizado na bateria do controlador, e quase imediatamente agora foi reportado como degradado no OM. Posteriormente, o registro começou a ser preenchido novamente com as mesmas mensagens:
Com base nessas novas informações, estou bastante confiante de que o problema é a bateria. Eu irei substituí-lo ainda hoje quando puder chegar ao local do servidor.
Minha hipótese é que um ciclo de aprendizado começou na bateria e foi nesse ponto que a bateria começou a ser reportada como ruim. Talvez estivesse esquentando enquanto carregava, causando assim as mensagens repetitivas enquanto aquecia e depois esfriava.
Estou respondendo a minha própria pergunta porque espero que isso ajude qualquer pessoa que pesquisar minha mensagem de erro original (que, em uma pesquisa, não gerou resultados em inglês).
Felizmente, uma bateria de controlador ruim não é um problema para mim, porque a máquina em questão está conectada a uma SAN e a PERC é responsável apenas por um volume de sistema operacional local que não requer muita gravação. No entanto, uma coisa a ser tirada disso é que, se você confiar no cache de gravação e tiver vários controladores PERC que usam o mesmo tipo de bateria, mantenha pelo menos uma bateria extra à mão.
Atualização: Em nome da ciência, deixo o ciclo de aprendizado da bateria completo. Demorou um pouco, mas terminou com êxito e nenhuma nova mensagem de erro foi adicionada ao ESM Log / SEL.
É claro que a bateria ainda é suspeita e será substituída, mas eu recomendaria a qualquer um que experimentasse os sintomas que descrevi para tentar iniciar um ciclo de aprendizado.