Minhas máquinas virtuais do RHEL 6.1 em execução nos hosts ESXi 5.1.0 ficam congeladas quando o procedimento de backup tenta obter uma instantânea em quiesce . Eu tenho que redefinir as máquinas virtuais do console VMware. A ferramenta usada para desativar a máquina virtual é SYMCquiesce 1.0.0 da Symantec. O mais estranho é que não falha sempre - o backup é lançado toda semana ... mas falha apenas a cada duas semanas .
Depois de ler o documento da VMware link e o documento RedHat link e como eu não tinha permissão para atualizar para o RHEL 6.4, decidi fazer downgrade do VMware Tools para o ESX 5.0. De acordo com esta tabela , eu desinstalei as ferramentas VMware 9.0.15 e instalei de volta 8.6.11.26309 (build-1310128) . Mas essa versão antiga não resolveu o problema ... as máquinas virtuais ficam congeladas ... a cada duas semanas .
O /etc/vmware-tools/tools.conf
contém
[vmbackup]
enableSyncDriver = false
[logging]
log = true
vmtoolsd.level = warning
vmtoolsd.handler = vmx
vmss.level = warning
vmss.handler = vmx
A seção de log está incluída de acordo com este documento VMware para obter algumas mensagens de log no host do ESXi.
De acordo com o arquivo do Symantec README, o script /usr/sbin/pre-freeze-script
contém
/opt/SYMCquiesce/bin/freeze
O arquivo vmware.log
, localizado no armazenamento de dados do host ESXi, contém as seguintes linhas quando o instantâneo é criado com sucesso:
2016-01-11T23:39:27.849Z| vmx| I120: Vix: [12153447 vigorCommands.c:481]: VigorSnapshotManager_Take: takeOptions=136, clientFlags=0, displayName=NBU_SNAPSHOT backupcentral 1452555565 2016-01-11T23:39:27.879Z| vmx| I120: SnapshotVMX_TakeSnapshot start: 'NBU_SNAPSHOT backupcentral 1452555565', deviceState=0, logging=0, quiesced=1, forceNative=0, tryNative=1, sibling=0 saveAllocMaps=0 cb=18CA48E0, cbData=19CADF40 2016-01-11T23:39:27.893Z| vmx| I120: DISKLIB-VMFS : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : open successful (65557) size = 188978561024, hd = 0. Type 3 2016-01-11T23:39:27.893Z| vmx| I120: DISKLIB-VMFS : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : closed. 2016-01-11T23:39:27.927Z| vcpu-2| I120: ToolsBackup: changing quiesce state: IDLE -> STARTED 2016-01-11T23:39:29.692Z| vcpu-2| I120: ToolsBackup: changing quiesce state: STARTED -> COMMITTED 2016-01-11T23:39:29.693Z| vcpu-0| I120: Destroying virtual dev for scsi0:0 vscsi=10159 2016-01-11T23:39:29.693Z| vcpu-0| I120: VMMon_VSCSIStopVports: No such target on adapter 2016-01-11T23:39:29.742Z| vcpu-0| I120: SnapshotVMXTakeSnapshotCB: Enter checkpoint status 1, mode 0.
Mas quando falha, parece que as ferramentas da VMware não respondem - preste atenção nas linhas depois de IDLE -> STARTED
:
2016-01-18T23:03:40.412Z| vmx| I120: Vix: [12153447 vigorCommands.c:481]: VigorSnapshotManager_Take: takeOptions=136, clientFlags=0, displayName=NBU_SNAPSHOT backupcentral 1453158218 2016-01-18T23:03:40.432Z| vmx| I120: SnapshotVMX_TakeSnapshot start: 'NBU_SNAPSHOT backupcentral 1453158218', deviceState=0, logging=0, quiesced=1, forceNative=0, tryNative=1, sibling=0 saveAllocMaps=0 cb=18CA48E0, cbData=19B04E90 2016-01-18T23:03:40.519Z| vmx| I120: DISKLIB-VMFS : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : open successful (65557) size = 188978561024, hd = 0. Type 3 2016-01-18T23:03:40.519Z| vmx| I120: DISKLIB-VMFS : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : closed. 2016-01-18T23:03:40.522Z| vcpu-0| I120: ToolsBackup: changing quiesce state: IDLE -> STARTED 2016-01-18T23:03:58.715Z| vmx| I120: GuestRpcSendTimedOut: message to toolbox timed out. 2016-01-18T23:04:03.814Z| vmx| I120: Tools: Tools heartbeat timeout. 2016-01-18T23:04:13.716Z| vmx| I120: GuestRpcSendTimedOut: message to toolbox timed out. 2016-01-18T23:04:13.716Z| vmx| I120: GuestRpc: app toolbox's second ping timeout; assuming app is down 2016-01-18T23:04:13.717Z| vmx| I120: ToolsBackup: changing quiesce state: STARTED -> DONE 2016-01-18T23:04:13.717Z| vmx| I120: SnapshotVMXTakeSnapshotComplete: done with snapshot 'NBU_SNAPSHOT backupcentral 1453158218': 0 2016-01-18T23:04:13.717Z| vmx| I120: SnapshotVMXTakeSnapshotComplete: Snapshot 0 failed: Failed to quiesce the virtual machine (40). 2016-01-18T23:04:13.718Z| vmx| I120: GuestRpc: Reinitializing Channel 0(toolbox) 2016-01-18T23:04:13.718Z| vmx| I120: GuestMsg: Channel 0, Cannot unpost because the previous post is already completed 2016-01-18T23:04:13.718Z| vmx| I120: GuestRpc: Channel 0 reinitialized. 2016-01-18T23:04:13.718Z| vmx| I120: GuestRpc: Channel 0 reinitialized.
Alguém tem alguma ideia para resolver este problema?
Obrigado antecipadamente.
PD: alguma outra máquina virtual RHEL5 também fica congelada.
atualização 1
Os arquivos de log do software SYMCquiesce não existem nas datas em que ocorreu uma sessão de backup de "congelamento". Nos dias em que a sessão de backup funcionou com êxito, os arquivos de log contêm a seguinte mensagem:
Unable to allocate shared memory
Aqui você vê um calendário das últimas sessões de backup:
date reboot log file ------------ ------ -------- Feb 22, 2016 no yes Feb 29, 2016 yes no Mar 7, 2016 no yes Mar 14, 2016 no no Mar 21, 2016 yes no Mar 28, 2016 no yes Apr 4, 2016 yes no
Em 14 de março, tudo correu bem porque nenhuma sessão de backup foi iniciada.
atualização final
Após migrar para a versão do VMware 5.5, esse problema desapareceu.