máquinas RHEL6.1 VM congeladas quando um instantâneo desativado é criado para fins de backup

1

Minhas máquinas virtuais do RHEL 6.1 em execução nos hosts ESXi 5.1.0 ficam congeladas quando o procedimento de backup tenta obter uma instantânea em quiesce . Eu tenho que redefinir as máquinas virtuais do console VMware. A ferramenta usada para desativar a máquina virtual é SYMCquiesce 1.0.0 da Symantec. O mais estranho é que não falha sempre - o backup é lançado toda semana ... mas falha apenas a cada duas semanas .

Depois de ler o documento da VMware link e o documento RedHat link e como eu não tinha permissão para atualizar para o RHEL 6.4, decidi fazer downgrade do VMware Tools para o ESX 5.0. De acordo com esta tabela , eu desinstalei as ferramentas VMware 9.0.15 e instalei de volta 8.6.11.26309 (build-1310128) . Mas essa versão antiga não resolveu o problema ... as máquinas virtuais ficam congeladas ... a cada duas semanas .

O /etc/vmware-tools/tools.conf contém

[vmbackup]
enableSyncDriver = false

[logging]
log = true
vmtoolsd.level = warning
vmtoolsd.handler = vmx
vmss.level = warning
vmss.handler = vmx

A seção de log está incluída de acordo com este documento VMware para obter algumas mensagens de log no host do ESXi.

De acordo com o arquivo do Symantec README, o script /usr/sbin/pre-freeze-script contém

/opt/SYMCquiesce/bin/freeze

O arquivo vmware.log , localizado no armazenamento de dados do host ESXi, contém as seguintes linhas quando o instantâneo é criado com sucesso:

2016-01-11T23:39:27.849Z| vmx| I120: Vix: [12153447 vigorCommands.c:481]: VigorSnapshotManager_Take: takeOptions=136, clientFlags=0, displayName=NBU_SNAPSHOT backupcentral 1452555565    
2016-01-11T23:39:27.879Z| vmx| I120: SnapshotVMX_TakeSnapshot start: 'NBU_SNAPSHOT backupcentral 1452555565', deviceState=0, logging=0, quiesced=1, forceNative=0, tryNative=1, sibling=0 saveAllocMaps=0 cb=18CA48E0, cbData=19CADF40
2016-01-11T23:39:27.893Z| vmx| I120: DISKLIB-VMFS  : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : open successful (65557) size = 188978561024, hd = 0. Type 3
2016-01-11T23:39:27.893Z| vmx| I120: DISKLIB-VMFS  : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : closed.
2016-01-11T23:39:27.927Z| vcpu-2| I120: ToolsBackup: changing quiesce state: IDLE -> STARTED
2016-01-11T23:39:29.692Z| vcpu-2| I120: ToolsBackup: changing quiesce state: STARTED -> COMMITTED
2016-01-11T23:39:29.693Z| vcpu-0| I120: Destroying virtual dev for scsi0:0 vscsi=10159
2016-01-11T23:39:29.693Z| vcpu-0| I120: VMMon_VSCSIStopVports: No such target on adapter
2016-01-11T23:39:29.742Z| vcpu-0| I120: SnapshotVMXTakeSnapshotCB: Enter checkpoint status 1, mode 0.

Mas quando falha, parece que as ferramentas da VMware não respondem - preste atenção nas linhas depois de IDLE -> STARTED :

2016-01-18T23:03:40.412Z| vmx| I120: Vix: [12153447 vigorCommands.c:481]: VigorSnapshotManager_Take: takeOptions=136, clientFlags=0, displayName=NBU_SNAPSHOT backupcentral 1453158218
2016-01-18T23:03:40.432Z| vmx| I120: SnapshotVMX_TakeSnapshot start: 'NBU_SNAPSHOT backupcentral 1453158218', deviceState=0, logging=0, quiesced=1, forceNative=0, tryNative=1, sibling=0 saveAllocMaps=0 cb=18CA48E0, cbData=19B04E90
2016-01-18T23:03:40.519Z| vmx| I120: DISKLIB-VMFS  : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : open successful (65557) size = 188978561024, hd = 0. Type 3
2016-01-18T23:03:40.519Z| vmx| I120: DISKLIB-VMFS  : "/vmfs/volumes/5314ce6f-2d501c33-de3c-a41f72000c75/myrhel61/solr-flat.vmdk" : closed.
2016-01-18T23:03:40.522Z| vcpu-0| I120: ToolsBackup: changing quiesce state: IDLE -> STARTED
2016-01-18T23:03:58.715Z| vmx| I120: GuestRpcSendTimedOut: message to toolbox timed out.
2016-01-18T23:04:03.814Z| vmx| I120: Tools: Tools heartbeat timeout.
2016-01-18T23:04:13.716Z| vmx| I120: GuestRpcSendTimedOut: message to toolbox timed out.
2016-01-18T23:04:13.716Z| vmx| I120: GuestRpc: app toolbox's second ping timeout; assuming app is down
2016-01-18T23:04:13.717Z| vmx| I120: ToolsBackup: changing quiesce state: STARTED -> DONE
2016-01-18T23:04:13.717Z| vmx| I120: SnapshotVMXTakeSnapshotComplete: done with snapshot 'NBU_SNAPSHOT backupcentral 1453158218': 0
2016-01-18T23:04:13.717Z| vmx| I120: SnapshotVMXTakeSnapshotComplete: Snapshot 0 failed: Failed to quiesce the virtual machine (40).
2016-01-18T23:04:13.718Z| vmx| I120: GuestRpc: Reinitializing Channel 0(toolbox)
2016-01-18T23:04:13.718Z| vmx| I120: GuestMsg: Channel 0, Cannot unpost because the previous post is already completed
2016-01-18T23:04:13.718Z| vmx| I120: GuestRpc: Channel 0 reinitialized.
2016-01-18T23:04:13.718Z| vmx| I120: GuestRpc: Channel 0 reinitialized.

Alguém tem alguma ideia para resolver este problema?

Obrigado antecipadamente.

PD: alguma outra máquina virtual RHEL5 também fica congelada.

atualização 1

Os arquivos de log do software SYMCquiesce não existem nas datas em que ocorreu uma sessão de backup de "congelamento". Nos dias em que a sessão de backup funcionou com êxito, os arquivos de log contêm a seguinte mensagem:

Unable to allocate shared memory

Aqui você vê um calendário das últimas sessões de backup:

    date       reboot   log file
------------   ------   --------
Feb 22, 2016    no         yes
Feb 29, 2016    yes        no
Mar  7, 2016    no         yes
Mar 14, 2016    no         no
Mar 21, 2016    yes        no
Mar 28, 2016    no         yes
Apr  4, 2016    yes        no

Em 14 de março, tudo correu bem porque nenhuma sessão de backup foi iniciada.

atualização final

Após migrar para a versão do VMware 5.5, esse problema desapareceu.

    
por Jdamian 16.02.2016 / 12:02

0 respostas