Ontem nossa infraestrutura inteira falhou porque todos os nossos hosts ESXi acharam que seria uma ótima ideia executar atualizações ao mesmo tempo. Edit: Ou pelo menos é o que achamos que aconteceu, mas ninguém tem certeza.
Normalmente, não atualizamos o ESXi a menos que tenhamos problemas com eles ou que, de alguma forma, sejam informados sobre algo que deve ser corrigido.
Algumas informações:
3x IBM x3650 M4 (7915D3G) configurado no mestre / escravo de alta disponibilidade,
ESXi versão 5.5.0, IMM v. 3.73, Build 1331820
Estamos muito confusos com a situação. Nosso suporte forneceu a causa acima do erro e anexou as linhas de impressão de arquivos de log, como (o arquivo é muito grande, então, vou me ater a essa parte crítica):
2014-11-04T10:58:48.364Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e04c5e84] [WaitForUpdatesDone] Starting next WaitForUpdates() call to hostd
2014-11-04T10:58:48.364Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e04c5e84] [WaitForUpdatesDone] Completed callback
2014-11-04T10:58:48.406Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e4a7ca00] [WaitForUpdatesDone] Received callback
2014-11-04T10:58:48.406Z [488A1B70 verbose 'VpxaHalCnxHostagent' opID=WFU-e4a7ca00] [VpxaHalCnxHostagent::ProcessUpdate] Applying updates from 3526 to 3527 (at 3526)
2014-11-04T10:58:48.406Z [488A1B70 verbose 'hostdvm' opID=WFU-e4a7ca00] [VpxaHalVmHostagent] 26: Config changed 'config.extraConfig["vmware.tools.internalversion"].value'
2014-11-04T10:58:48.407Z [488A1B70 verbose 'hostdvm' opID=WFU-e4a7ca00] [VpxaHalVmHostagent] 26: Config changed 'config.tools.toolsVersion'
2014-11-04T10:58:48.407Z [488A1B70 verbose 'hostdvm' opID=WFU-e4a7ca00] [VpxaHalVmHostagent] 26: Runtime changed 'guest.toolsVersion'
Ninguém em nosso departamento tocou nesses servidores nesse nível. Normalmente, gerenciamos apenas as VMs, não os hosts. Como isso pode acontecer sozinho?
Os servidores travaram todos os três ao mesmo tempo às 10h50 sem ninguém fazer nada específico. Nossa equipe de suporte não conseguiu encontrar nenhum arquivo de registro indicando qualquer tipo de problema, o que é muito estranho.