Ocorreu um erro na CPU do Cisco UCS todos os dias

Question

Ocorreu um erro na CPU do Cisco UCS todos os dias

Navegue suas respostas

#1 resposta do (2 votos)

1

A situação

Atualização recente de 2.2 para 3.1 (1e).
Desde a atualização, às 6:51 da manhã (UTC + 1) todos os dias eu sofro falhas entre zero e três (de ~ 60) dos blades da série B200 na minha instalação.
São sempre as mesmas três lâminas, todas em chassis diferentes.
As falhas se manifestam como uma falha de hardware com mensagens de 'falha preditiva de CPU' e 'CATERR_N' no SEL.
Ciclo de energia da lâmina restaura para atender (pelo menos até a próxima falha).
Não há agendamentos únicos ou recorrentes no UCSM que estejam em qualquer lugar perto dessa hora do dia.
O Cisco TAC está investigando, mas não está esclarecendo por que as falhas ocorrem na mesma hora todos os dias.

Minhas pesquisas e suspeitas

Eu tenho uma teoria de trabalho de que estes são problemas reais de hardware que de alguma forma foram expostos pela atualização do firmware.
Há uma breve menção de algo chamado "gerenciador de verificação de sensor" em o guia de solução de problemas , mas não consigo encontrar detalhes sobre o que ele faz ou como monitorá-lo.
Eu já descartei uma causa ambiental. Nossos monitores de energia e temperatura não mostram nada incomum na época. Nós não estamos em uma zona de terremoto: -)

A questão

Por que as falhas ocorrem exatamente na mesma hora todos os dias?

cisco-ucs

por Flup 17.05.2016 / 10:21

1 resposta

Tags cisco-ucs

Obtenha o valor de retorno do bool ao verificar se o smb1 está ativado usando o powershell ipv6 proxy forward result in bad request

score 2 · Accepted Answer

Isso se tornou um bug na versão de firmware 3.1 (1e) (Conta da Cisco necessária para esse link). É descrito como um 'evento raro' envolvendo o VIC 1340 e uma interrupção de depuração.

A razão pela qual isso estava acontecendo na mesma hora todos os dias é que ele estava sendo acionado por -

uso pesado de memória, seguido por
executando lspci ,

e é exatamente isso que o Puppet fazia todas as manhãs (só executamos uma vez por dia).

Não está claro por que apenas alguns blades foram afetados por esse bug, mas a atualização para a versão 3.1 (1h) resolveu o problema.