Ocorreu um erro na CPU do Cisco UCS todos os dias

1

A situação

  • Atualização recente de 2.2 para 3.1 (1e).
  • Desde a atualização, às 6:51 da manhã (UTC + 1) todos os dias eu sofro falhas entre zero e três (de ~ 60) dos blades da série B200 na minha instalação.
  • São sempre as mesmas três lâminas, todas em chassis diferentes.
  • As falhas se manifestam como uma falha de hardware com mensagens de 'falha preditiva de CPU' e 'CATERR_N' no SEL.
  • Ciclo de energia da lâmina restaura para atender (pelo menos até a próxima falha).
  • Não há agendamentos únicos ou recorrentes no UCSM que estejam em qualquer lugar perto dessa hora do dia.
  • O Cisco TAC está investigando, mas não está esclarecendo por que as falhas ocorrem na mesma hora todos os dias.

Minhas pesquisas e suspeitas

  • Eu tenho uma teoria de trabalho de que estes são problemas reais de hardware que de alguma forma foram expostos pela atualização do firmware.
  • Há uma breve menção de algo chamado "gerenciador de verificação de sensor" em o guia de solução de problemas , mas não consigo encontrar detalhes sobre o que ele faz ou como monitorá-lo.
  • Eu já descartei uma causa ambiental. Nossos monitores de energia e temperatura não mostram nada incomum na época. Nós não estamos em uma zona de terremoto: -)

A questão

Por que as falhas ocorrem exatamente na mesma hora todos os dias?

    
por Flup 17.05.2016 / 12:21

1 resposta

2

Isso se tornou um bug na versão de firmware 3.1 (1e) (Conta da Cisco necessária para esse link). É descrito como um 'evento raro' envolvendo o VIC 1340 e uma interrupção de depuração.

A razão pela qual isso estava acontecendo na mesma hora todos os dias é que ele estava sendo acionado por -

  • uso pesado de memória, seguido por
  • executando lspci ,

e é exatamente isso que o Puppet fazia todas as manhãs (só executamos uma vez por dia).

Não está claro por que apenas alguns blades foram afetados por esse bug, mas a atualização para a versão 3.1 (1h) resolveu o problema.

    
por 06.10.2016 / 17:18

Tags