O que pode fazer com que um instantâneo do VMWare expire?

1

Estou usando o BackupExec e o VCB para fazer backup de algumas VMs. Pelo que entendi, o script de pré-tarefa cria um instantâneo de minhas VMs, monta-as como diretórios virtuais no meu servidor de backup e, em seguida, meu trabalho de execução de backup apenas faz o backup das pastas locais como normal. O problema que estou tendo ocorre durante o script pré-job e o diretório para um servidor em particular nunca é montado.

Quando olho para o cliente VI e vejo a atividade recente, vejo que o instantâneo começou, mas não foi concluído. Parece expirar após 15 minutos e, portanto, o servidor nunca é submetido a backup.

Tenho várias VMs sendo armazenadas dessa forma e as outras funcionam bem. A VM problemática tem um disco virtual de 85 GB, mas outra VM que funciona tem um disco virtual de quase 100 GB.

Eu estou querendo saber o que mais sobre uma VM pode fazer com que o snapshot leve muito tempo para ser criado. É um problema com o host da VM talvez? O host da VM é um servidor muito poderoso e nenhum dos convidados da VM é muito usado. Além disso, os backups são executados fora do expediente, de modo que não deve haver casos em que o servidor esteja sobrecarregado. Há algum registro ou ferramenta que eu possa usar para ver o que está atrasando o snapshot?

    
por Ken Pespisa 23.06.2009 / 02:22

5 respostas

2

O VMWare usa o termo snapshot de maneira bastante flexível. Ele não está realmente criando uma cópia do seu servidor, o que ele faz é parar de fazer qualquer alteração no arquivo de disco existente - e redirecionar as mudanças para um arquivo delta durante a vida do instantâneo.

O que isto significa é:

  1. instantâneos em qualquer servidor de tamanho são quase instantâneos.
  2. contanto que um instantâneo permaneça, o arquivo delta continuará a crescer - possivelmente até o ponto de usar todo o espaço em disco subjacente.
  3. confirmar as alterações (ou seja, excluir um instantâneo) pode levar algum tempo

Eu acho que o que o processo VCB faz é fazer um instantâneo (para que os dados não sejam alterados durante a cópia) e, em seguida, fazer um clone do arquivo congelado para fazer o backup. Isso pode levar algum tempo - embora você mencione que é bem-sucedido para um servidor maior, isso provavelmente não é o problema.

Uma possibilidade é se você tiver algum disco virtual marcado como independente . Em caso afirmativo, eles são ignorados pelo processo snapshot e, possivelmente, também pelo VCB. Não tem certeza de como o VCB monta as unidades, mas talvez exija uma unidade marcada como independente ?

    
por 23.06.2009 / 04:34
0

Verifique a latência no seu san quando isso está ocorrendo. Pode ser que outro vm ou processo (job sql server?) Esteja atingindo o san ao mesmo tempo.

    
por 23.06.2009 / 04:09
0

Quantas VMs você hospeda no mesmo LUN? Quão ocupados eles estão?

Tivemos grandes problemas aqui com alguns servidores VMware ESX instalando tantas reservas SCSI em um LUN; outros servidores ESX que usam o mesmo LUN não conseguiram mais gravar no LUN. Você deve poder ver isso nos arquivos de log.

O ESX define uma reserva SCSI em um LUN inteiro quando ele sai fazendo atualizações de metadados. É possível que o VCB adicione um pouco à carga já pesada no LUN aqui.

Oficialmente, esse problema foi corrigido por alguns meses, mas ainda enfrentamos problemas de vez em quando.

    
por 23.06.2009 / 08:54
0

As reservas de latência e SCSI já foram mencionadas e essas são muitas vezes a causa.

Outras coisas a verificar:

Suas vmtools nesta VM específica estão instaladas e funcionando corretamente? A VM está executando uma versão desatualizada do vmtools? As ferramentas do VMware são fundamentais para obter um bom instantâneo. Por exemplo, versões mais recentes do ESX 3.5 e VMware Tools suportam o uso do VSS como o provedor de snapshots para VMs do Windows, mas a versão atualizada das ferramentas vmware precisaria ser instalada com suporte a VSS e precisaria ser configurada.

O recurso de backup: esse trabalho em particular está sendo enfileirado por um longo período de tempo? Se o estágio de disco ou a unidade de fita estiver em uso e o trabalho permanecer no estágio de instantâneo por um período prolongado, o snap talvez nunca seja realmente capturado. Isso parece improvável, dada a sua descrição, mas, em geral, pode ser algo para verificar.

    
por 23.06.2009 / 13:46
0

Outra coisa, certifique-se de que a desfragmentação nunca seja executada enquanto houver um instantâneo na VM. O arquivo delta explode em tamanho.

    
por 23.06.2009 / 16:39