Solução de problemas de reinicializações espontâneas do VMWare ESXi 5

3

Mudei meu servidor ESXi 5.0 para uma colo a cerca de 3 semanas e, desde então, tive problemas com o servidor desligando e voltando espontaneamente. Eu já tinha o servidor sentado em minha casa por quase um mês enquanto eu estava de férias. Durante esse tempo, o servidor não caiu uma vez.As únicas diferenças (que eu estou ciente de) são:

  1. Nova localização física
  2. Instalou uma placa RAID Dell PERC5i
  3. Na verdade, existem alguns sites lá agora, mas nada é realmente pesado do ponto de vista do tráfego ou do processador

O que torna a situação um pouco urgente é que, em uma ocasião, quando o ESXi e os convidados voltaram, uma das VMs passou por um pânico no sistema de arquivos e entrou no modo RO. Eu reiniciei esse convidado, executei o fsck e tudo voltou ao normal. Eu estou tentando descobrir o que causou essa reinicialização em particular e realmente aprecio o olho de um usuário experiente do ESXi para detectar qualquer coisa peculiar em meus logs. Não vejo nada que se pareça com uma falha do kernel ou um despejo de memória. Abaixo estão trechos do que me parecem ser registros relevantes logo antes e depois do evento de reinicialização ... por favor, deixe-me saber se devo incluir outros.

vmksummary.log

2012-08-07T17:00:01Z heartbeat: up 2d18h42m11s, 3 VMs; [[3406 vmx 2092436kB] [3453 vmx 2095768kB] [3373 vmx 2300420kB]] [[3531 sfcb-hhrc 2%max] [3432 sfcb-vmware_bas 5%max] [3420 sfcb-pycim 16%max]]
2012-08-07T18:00:01Z heartbeat: up 2d19h42m11s, 3 VMs; [[3406 vmx 2092488kB] [3453 vmx 2095640kB] [3373 vmx 2301544kB]] [[3531 sfcb-hhrc 2%max] [3432 sfcb-vmware_bas 5%max] [3420 sfcb-pycim 16%max]]
2012-08-07T18:58:42Z bootstop: Host has booted
2012-08-07T19:00:01Z heartbeat: up 0d0h2m10s, 3 VMs; [[3405 vmx 464780kB] [3451 vmx 815008kB] [3373 vmx 1086716kB]] [[3501 sfcb-CIMXML-Pro 1%max] [3432 sfcb-vmware_bas 2%max] [3420 sfcb-pycim 5%max]]

syslog.log

2012-08-04T20:00:01Z crond[2702]: USER root pid 97212 cmd /usr/lib/vmware/vmksummary/log-heartbeat.py
2012-08-04T20:01:01Z crond[2702]: USER root pid 97329 cmd /sbin/auto-backup.sh
2012-08-04T21:00:01Z crond[2702]: USER root pid 99638 cmd /usr/lib/vmware/vmksummary/log-heartbeat.py
2012-08-04T21:01:01Z crond[2702]: USER root pid 99745 cmd /sbin/auto-backup.sh
2012-08-04T22:00:01Z crond[2702]: USER root pid 102014 cmd /usr/lib/vmware/vmksummary/log-heartbeat.py
2012-08-04T22:01:01Z crond[2702]: USER root pid 102081 cmd /sbin/auto-backup.sh
2012-08-04T22:17:54Z jumpstart: dependencies for plugin 'restore-host-cache' not met (missing: vcfs)
2012-08-04T22:17:54Z vmkmicrocode: Warning: Line size is greater than expected size 242
2012-08-04T22:17:54Z vmkmicrocode: File microcode_amd_0x100fa0.bin does not contain a valid microcode update for any of the processors
2012-08-04T22:17:54Z vmkmicrocode: File m4010676860C0001.dat does not contain a valid microcode update for any of the processors
2012-08-04T22:17:54Z vmkmicrocode: File m03106a5.dat does not contain a valid microcode update for any of the processors
2012-08-04T22:17:54Z vmkmicrocode: cpu0 with revision (a07) can use the update in file microcode-1027.dat
2012-08-04T22:17:54Z vmkmicrocode: update number 25 version(1), revision(2571), date(0x9282010), size(2048)
2012-08-04T22:17:54Z vmkmicrocode: cpu1 with revision (a07) can use the update in file microcode-1027.dat
2012-08-04T22:17:54Z vmkmicrocode: update number 25 version(1), revision(2571), date(0x9282010), size(2048)
2012-08-04T22:17:54Z vmkmicrocode: cpu2 with revision (a07) can use the update in file microcode-1027.dat
2012-08-04T22:17:54Z vmkmicrocode: update number 25 version(1), revision(2571), date(0x9282010), size(2048)

vmkernel.log

2012-08-04T02:59:59.509Z cpu4:2655)<6>megasas_hotplug_work[6]: aen event code 0x0027
2012-08-04T15:57:19.630Z cpu5:2655)<6>megasas_hotplug_work[6]: aen event code 0x005e
2012-08-04T16:03:35.776Z cpu4:2649)<6>megasas_hotplug_work[6]: aen event code 0x005e
TSC: 0 cpu0:0)Boot: 167: Parsing boot option module /useropts.gz
TSC: 14715 cpu0:0)Boot: 173: Parsing command line boot options
TSC: 86415 cpu0:0)BootConfig: 38: coresPerPkg = 0
TSC: 90368 cpu0:0)BootConfig: 41: useNUMAInfo = TRUE
TSC: 93878 cpu0:0)BootConfig: 44: numaLatencyLoops = 20
...
PRESUMABLY MORE BOOT STUFF
...
0:00:00:03.667 cpu0:2048)IDT: 991: 0x30 <keyboard> exclusive, flags 0x3
0:00:00:03.667 cpu0:2048)IDT: 991: 0x58 <mouse> exclusive, flags 0x3
0:00:00:03.667 cpu0:2048)IOAPIC: 1335: 0x58 retriggerred
0:00:00:03.667 cpu0:2048)IOAPIC: 1335: 0x30 retriggerred
0:00:00:03.667 cpu0:2048)GlobalTimer: 78: GlobalTimer service not available
0:00:00:03.667 cpu0:2048)Initializing Power Management ...
0:00:00:03.670 cpu0:2048)Power: 2568: No supported CPU power management technology detected
0:00:00:03.671 cpu0:2048)MCE: 616: Fixed 10 MCE bank/CPU-package ownership settings
0:00:00:03.672 cpu0:2048)CpuSched: 11824: Reset scheduler statistics
0:00:00:03.672 cpu0:2048)Init: 892: Vmkernel initialization done. Returning to console.
0:00:00:03.672 cpu0:2048)VMKernel loaded successfully.
2012-08-04T22:17:52.152Z cpu6:2059)ScsiCore: 129: Starting taskMgmt watchdog world 2059
2012-08-04T22:17:52.152Z cpu4:2060)ScsiCore: 129: Starting taskMgmt watchdog world 2060
2012-08-04T22:17:52.152Z cpu5:2141)VSCSI: 2520: Starting reset handler world 2141/1
2012-08-04T22:17:52.152Z cpu3:2177)ScsiCore: 63: Starting taskmgmt handler world 2177/1
2012-08-04T22:17:52.152Z cpu2:2178)ScsiCore: 63: Starting taskmgmt handler world 2178/1
2012-08-04T22:17:52.152Z cpu5:2142)VSCSI: 2709: Starting reset watchdog world 2142

hostd.log

2012-08-04T22:13:54.996Z [FFEA7AC0 info 'Vmomi'] Activation [N5Vmomi10ActivationE:0x33f7abc0] : Invoke done [waitForUpdates] on [vmodl.query.PropertyCollector:ha-property-collector]
2012-08-04T22:13:54.996Z [FFEA7AC0 verbose 'Vmomi'] Arg version:
--> "46"
2012-08-04T22:13:54.996Z [FFEA7AC0 info 'Vmomi'] Throw vmodl.fault.RequestCanceled
2012-08-04T22:13:54.996Z [FFEA7AC0 info 'Vmomi'] Result:
--> (vmodl.fault.RequestCanceled) {
--> dynamicType = <unset>,
--> faultCause = (vmodl.MethodFault) null,
--> msg = "",
--> }
2012-08-04T22:13:54.997Z [34759B90 error 'SoapAdapter.HTTPService'] HTTP Transaction failed on stream TCP(local=127.0.0.1:0, peer=127.0.0.1:58492) with error N7Vmacore15SystemExceptionE(Connection reset by p
2012-08-04T22:14:13.998Z [340C2B90 verbose 'Proxysvc Req01482'] New proxy client TCP(local=66.196.32.10:80, peer=223.4.119.245:43890)
2012-08-04T22:14:44.561Z [348FBB90 verbose 'vm:/vmfs/volumes/4ffd026d-a15e589f-c6e3-003048d37c09/REDACTED/REDACTED.vmx'] Actual VM overhead: 119980032 bytes
2012-08-04T22:14:44.562Z [348FBB90 verbose 'Vmsvc'] RefreshVms updated overhead for 1 VM
2012-08-04T22:15:07.104Z [34718B90 verbose 'Cimsvc'] Ticket issued for CIMOM version 1.0, user root
Section for VMware ESX, pid=2790, version=5.0.0, build=build-623860, option=Release
------ In-memory logs start --------
2012-08-04T22:18:21.746Z [FFC7CAC0 info 'Default'] Supported VMs 87
2012-08-04T22:18:21.746Z [FFC7CAC0 info 'Handle checker'] Setting system limit of 2222
2012-08-04T22:18:21.746Z [FFC7CAC0 info 'Handle checker'] Set system limit to 2222
2012-08-04T22:18:21.746Z [FFC7CAC0 info 'Default'] Setting malloc mmap threshold to 32 k
2012-08-04T22:18:21.746Z [FFC7CAC0 info 'Default'] getrlimit(RLIMIT_NPROC): curr=64 max=128, return code = Success
2012-08-04T22:18:21.746Z [FFC7CAC0 info 'Default'] setrlimit(RLIMIT_NPROC): curr=128 max=128, return code = Success
------ In-memory logs end --------
2012-08-04T22:18:21.747Z [FFC7CAC0 info 'Default'] Initialized channel manager

Eu descartei:

  • problema com a VM cujo sistema de arquivos foi R / O - meu entendimento é que uma única falha da VM não pode derrubar o ESXi
  • problema com um pico de tráfego na Web - o único site dessa VM não é muito veiculado próximo às 22h30 e uma olhada nos registros do Apache do convidado e em outros recursos suporta isso

Eu suspeito:

  • problema com a placa RAID Dell que eu instalei - ficou bom por mais de 3 semanas antes de instalar isso, instalarei diagnósticos nos próximos dias para que eu possa monitorar
  • possivelmente um problema com taxa de transferência na placa RAID, causando resposta lenta a solicitações feitas pela VM e levando-a a pensar que há algo errado com o sistema de arquivos, embora isso não deva explicar uma reinicialização. isso, apenas marca o FS R / O e continua até que você consiga resolver o problema, e como explicado acima, o sistema não deveria estar sob carga
  • o VMWare executa atualizações automáticas que exigem reinicializações? Eu não tenho VMWare Tools instalado em nenhum convidado para que possa levar a uma reinicialização suja de máquinas virtuais convidadas.
  • mau poder no colo - a manhã depois de mover o servidor lá, eu tive que fazer com que eles reiniciassem minha máquina ... Eu suspeito que alguém desligou um powerbar ou algo assim desde que eu recebi um genérico "nós estávamos tendo problemas de energia "resposta deles. Além disso, tivemos uma grande tempestade elétrica há algumas horas e o servidor foi reiniciado pelo menos 3 vezes durante um intervalo de 20 minutos, sem sistemas de arquivos corrompidos, mas este não deve ser o caso de um centro de dados supostamente suportado pelo gerador UPS +
  • mais alguma coisa em que você possa pensar?
por Nick 08.08.2012 / 06:07

1 resposta

3

A tempestade elétrica pode ter resultado em qualquer número de problemas . Dependendo da classe / qualidade da instalação do seu centro de dados, pode ter ocorrido um impacto.

  • Seus registros mais úteis seriam visíveis na guia "Eventos" do vSphere Client.
  • Você tem algum gerenciamento fora de banda disponível? DRAC, talvez? Isso forneceria informações sobre o status do hardware físico.
  • Este é realmente um servidor Dell? Qual modelo / geração? Em caso afirmativo, você deve instalar o Agentes CIM da Dell para ESXi 5 .
  • O seu controlador PERC / 5i tem memória cache e uma unidade de cache com bateria (BBWC)? A execução sem essas pode afetar o desempenho de gravação .
  • Um sistema VMWare ESXi individual não possui nenhum recurso de atualização automática.
  • Você deve instalar as ferramentas VMWare em seus sistemas convidados
  • Você tem duas fontes de alimentação no servidor e acesso a um feed de energia A / B? Se este for um sistema de PSU único, isso é um possível culpado.
por 08.08.2012 / 07:40