Não é possível iniciar a VM no cluster do Hyper-V 2008R2

1

Eu tenho um cluster Hyper-V Server 2008R2 com 2 nós. Eles usam um CSV em uma SAN. Eu uso o SCVMM para gerenciá-los. Recentemente, tivemos várias falhas que causaram um failover, fazendo com que as máquinas virtuais morressem e iniciassem no outro nó. Na maior parte, isso funcionou bem. Em um ponto durante uma falha de energia, os dois nós não conseguiram acessar a SAN por um momento, pois o CSV ficou offline. Colocá-lo on-line no Gerenciador de Cluster de Failover funcionou e a maioria das máquinas virtuais começou bem.

No entanto, uma máquina virtual não será iniciada.

  • No SCVMM, ele aparece como ausente.
  • No Gerenciador de Cluster de Failover, ele é mostrado como Offline, com o recurso "Configuração do nome do host do SCVMM".
  • Tentando iniciar o recurso de Configuração com falha ou mover a máquina virtual para os outros resultados do nó em uma espera de 5 minutos, seguido pelo erro "Código de erro: 0x80071714 O grupo não pode aceitar a solicitação porque está se movendo para outra nó ".

Além do erro acima, parece não haver registros relevantes recentes no cluster de failover ou nos logs de eventos do Windows em nenhum dos nós. Há alguns eventos críticos que posso ver no gerenciador de cluster de failover de quando as falhas aconteceram na semana passada:

  • ID do Evento 21502: 'Configuração do nome do host do SCVMM' falhou ao registrar a máquina virtual com o serviço de gerenciamento da máquina virtual.
  • 25 minutos depois, ID do Evento 1230: recurso de cluster 'Configuração do hostname do SCVMM' (tipo de recurso '', DLL 'vmclusres.dll') caiu ou foi travado. O processo RHS (Resource Hosting Subsystem) tentará terminar, e o recurso será marcado para ser executado em um monitor separado.
  • Essa foi repetida mais 3 vezes, com 5 minutos de intervalo.
  • Não há registros desde então.

Eu olhei para arquivos na SAN. Todos eles parecem estar intactos. O arquivo de configuração XML parece ser válido (algumas pesquisas mostraram que isso poderia acontecer se o arquivo XML fosse corrompido).

Editar: também executei o relatório de validação do cluster. Além do recurso com falha e alguns erros esperados que não puderam testar os discos enquanto estão on-line, tudo parece bem.

Como faço para executar novamente essa máquina virtual?

    
por Grant 02.01.2014 / 17:49

1 resposta

0

Apesar de não saber exatamente o que causou o problema, foi muito fácil obter a VM em execução novamente:

  • Descobrir em qual nó o problema está em VM
  • Coloque-o no modo de manutenção no VMM (ou apenas migre ao vivo todo esse nó). O problema da VM ainda estará preso nesse nó.
  • Pare o serviço de cluster nesse nó e, em seguida, inicie-o novamente.

Quando parei o serviço de cluster, a VM foi imediatamente assumida por um dos nós restantes e iniciada automaticamente.

    
por 13.01.2014 / 15:38