O VMware reinicializou automaticamente todos os hosts

3

Ontem nossa infraestrutura inteira falhou porque todos os nossos hosts ESXi acharam que seria uma ótima ideia executar atualizações ao mesmo tempo. Edit: Ou pelo menos é o que achamos que aconteceu, mas ninguém tem certeza.

Normalmente, não atualizamos o ESXi a menos que tenhamos problemas com eles ou que, de alguma forma, sejam informados sobre algo que deve ser corrigido.

Algumas informações:

3x IBM x3650 M4 (7915D3G) configurado no mestre / escravo de alta disponibilidade, ESXi versão 5.5.0, IMM v. 3.73, Build 1331820

Estamos muito confusos com a situação. Nosso suporte forneceu a causa acima do erro e anexou as linhas de impressão de arquivos de log, como (o arquivo é muito grande, então, vou me ater a essa parte crítica):

2014-11-04T10:58:48.364Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e04c5e84] [WaitForUpdatesDone] Starting next WaitForUpdates() call to hostd
2014-11-04T10:58:48.364Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e04c5e84] [WaitForUpdatesDone] Completed callback
2014-11-04T10:58:48.406Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e4a7ca00] [WaitForUpdatesDone] Received callback
2014-11-04T10:58:48.406Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e4a7ca00] [VpxaHalCnxHostagent::ProcessUpdate] Applying updates from 3526 to 3527 (at 3526)
2014-11-04T10:58:48.406Z [488A1B70 verbose 'hostdvm' opID=WFU-e4a7ca00] [VpxaHalVmHostagent] 26: Config changed 'config.extraConfig["vmware.tools.internalversion"].value'
2014-11-04T10:58:48.407Z [488A1B70 verbose 'hostdvm' opID=WFU-e4a7ca00] [VpxaHalVmHostagent] 26: Config changed 'config.tools.toolsVersion'
2014-11-04T10:58:48.407Z [488A1B70 verbose 'hostdvm' opID=WFU-e4a7ca00] [VpxaHalVmHostagent] 26: Runtime changed 'guest.toolsVersion'

Ninguém em nosso departamento tocou nesses servidores nesse nível. Normalmente, gerenciamos apenas as VMs, não os hosts. Como isso pode acontecer sozinho?

Os servidores travaram todos os três ao mesmo tempo às 10h50 sem ninguém fazer nada específico. Nossa equipe de suporte não conseguiu encontrar nenhum arquivo de registro indicando qualquer tipo de problema, o que é muito estranho.

    
por nickdnk 05.11.2014 / 09:44

1 resposta

3

Os servidores host VMware não são atualizados automaticamente sem uma ação deliberada acionada pelo vCenter por meio do Update Manager. Por favor, forneça as respostas para:

  • Que números de compilação específicos do ESXi você tem?
  • A que horas os sistemas foram reinicializados?
  • O que é mostrado no log de eventos dentro do vCenter para os hosts afetados? Deve ficar bem claro o que aconteceu.
  • O que dizem as ferramentas / logs de gerenciamento fora de banda da IBM?

Seus servidores provavelmente falharam e o gerenciamento da IBM parece ter reinicializado os sistemas automaticamente, com base nas informações que eu vejo aqui.

Você precisa executar atualizações . Você provavelmente está provocando um bug com o adaptador de NIC virtual em seus convidados do Windows. Deve ser vmxnet3 em vez de Intel e1000 / e1000e. Build 1331820 da ESXi é antigo e cheio de problemas. Ao executar o vSphere em um cluster, é extremamente importante manter as coisas atualizadas.

Veja:

Por que o VMware ESXi 5.5 está travando?

pico de CPU com travamento VMware

    
por 05.11.2014 / 10:07