Por que a conectividade perdida aleatoriamente da minha VM do HyperV?

9

Eu tenho um problema de conectividade intermitente estranho acontecendo uma vez a cada duas semanas.

Primeiro minha configuração: Estou executando um cluster de failover do HyperV com dois hosts físicos (node01 e node02). Os hosts estão executando o servidor HyperV do Windows Server 2008 R2 (o gratuito) com o SP1. Nesses hosts, estou executando duas VMs, cada uma executando a edição da Web do Windows Server 2008 R2 com o SP1. Meu servidor de armazenamento é o Windows Storage Server 2008 conectado via iSCSI. Tanto os hosts quanto o servidor de armazenamento estão executando os drivers de rede mais recentes baixados diretamente do site da Intel.

Aqui está o problema: 99,99% do tempo, tudo funciona perfeitamente. Cerca de uma vez a cada duas ou três semanas, as VMs perdem simultaneamente a conectividade de rede, tanto de entrada como de saída. Quando isso acontece,

  1. Não consigo RDP em nenhuma das VMs.
  2. Eu posso RDP em qualquer host.
  3. Eu posso me conectar a qualquer uma das VMs do Gerenciador de Cluster de Failover clicando com o botão direito do mouse no nó e selecionando 'Conectar à Máquina Virtual'
  4. Depois de me conectar à VM, conforme descrito no item 3 acima, não consigo acessar nenhum site ou computador na LAN. Desativar e reativar a conexão de rede virtual dentro da VM não corrige o problema.
  5. Se eu mover a VM para um nó diferente, isso corrigirá o problema (pelas próximas duas semanas).
  6. Se eu reiniciar o host e mover a VM de volta para ela, isso corrigirá o problema (pelas próximas duas semanas).
  7. Quando isso acontece, o cluster de failover NÃO faz failover automaticamente na VM.
  8. Não há entradas de log de eventos incomuns em nenhum dos hosts ou VMs.

Isso aconteceu cerca de 5 vezes com os mesmos sintomas descritos acima. Eu suspeito de um driver de rede ou problema de hardware de rede, mas como eu já estou executando os drivers mais recentes, não sei o que fazer sobre isso.

Este é um verdadeiro arriscado ... alguma idéia?

Atualizar

Encontrei um caso muito parecido aqui: Máquina Virutal perde conectividade de rede no Hyper-V Cluster

Atualização 29/07/2011

Depois de instalar os hotfixes e atualizar os drivers de rede, ainda estou tendo o mesmo problema. Em resposta ao comentário pedindo detalhes de hardware, o servidor é um Intel SR1670HV, que é um chassi 1U contendo duas placas-mãe S5500HV independentes. A comunicação é feita através das NICs integradas das placas-mãe, que são Intel 82574L. O driver de rede é a versão 16.2.49.0.

    
por Mike 09.06.2011 / 19:48

7 respostas

2

Isso se tornou um problema de hardware - eu isolei o problema para um switch gerenciado Netgear GSM7224v2, substituí-lo por um DGS-1024D da D-Link, e tudo tem funcionado bem desde então.

Como uma "lição aprendida", neste caso, eu provavelmente gastei 99% de minhas configurações de software de solução de problemas de esforço de diagnóstico para o que acabou sendo um problema de hardware. Eu até paguei US $ 259 ao Suporte da Microsoft (e passei muito tempo no telefone com eles) para me ajudar a descobrir as configurações do software. Eu acho que a moral da história é suspeitar do seu hardware tanto quanto o seu software.

    
por 22.09.2011 / 19:52
7

Nós costumávamos ter um problema como este em que estou. Não me lembro dos detalhes exatos, mas a solução final tinha a ver com um endereço mac conflitante atribuído dinamicamente a um adaptador de rede virtual. Apontar aqueles que não eram dinâmicos ajudou muito. Você normalmente não quer fazer isso porque pode tornar mais difícil mover uma máquina virtual para um host diferente, mas isso nos ajudou nessa instância.

A outra parte é que os nics físicos foram feitos pela broadcom e também tivemos um erro de configuração, onde um administrador anterior tentou incorretamente usar o utilitário broadcom para reposicionar as duas nics juntas no host para melhorar a largura de banda / taxa de transferência . Removemos essa configuração e configuramos uma das nics para que ela não tivesse nenhum IP na máquina host, mas ainda pudesse ser usada para passagem para convidados virtuais. Em seguida, configuramos cada máquina virtual para usar apenas um nic ou outro, equilibrando a carga com base no tráfego histórico. É claro que isso significa que não haverá failover se um adaptador ou conexão cair, e não tivermos seguido bem para ver se o tráfego permaneceu equilibrado ao longo do tempo, mas está estável desde então.

    
por 30.07.2011 / 02:57
5

Estou ciente de que esta é uma pergunta antiga, mas encontrei o mesmo problema e perdi tanto tempo resolvendo que pensava compartilhar a solução que funcionava para mim. Eu encontrei a solução para o meu problema aqui:

link

A solução na minha situação foi desativar o Descarregamento de TCP nas VMs. Vou citar a seção relevante do link:

In order to to disable TCP Offloading I had to create and set a new registry value in each VM connected to the Broadcom 8507 Nextreme II NIC.

I used the following registry change to disable TCP Offloading:

Key: HKLM\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters

Value(DWORD): DisableTaskOffload = 1

After disabling TCP offload on each VM this way all trouble was over and I was able to connect multiple VMs to one NIC port of the Broadcom 5708 Nextreme II NIC.

Meu servidor tem Broadcom NetExtreme NICs, então parece que a causa desse problema foi definitivamente relacionada ao driver, mas definir DisableTaskOffload = 1 resolveu o problema completamente para mim. Espero que esta informação poupe mais horas de pesquisa!

    
por 24.10.2012 / 09:45
3

Já encontrei algo semelhante em um ambiente Hyper-V muito mais simples e conheci este artigo na Microsoft. Parece se encaixar na sua situação se os servidores da Web forem muito usados.

link - A conexão de rede de uma máquina virtual Hyper-V em execução é perdida em tráfego pesado de rede de saída em um Windows Computador baseado em Server 2008 R2

    
por 09.06.2011 / 21:51
2

Tivemos esse mesmo problema, embora no nosso caso fosse a cada 24-48 horas. Eu verificaria se o seu produto antivírus / firewall suporta esporadicamente o Server 2008 com Hyper-V, se não, tente um produto antivírus / firewall diferente (ou removendo temporariamente, se possível) como um teste para ver se o problema desaparece .

Após uma chamada para a Microsoft e vários uploads de arquivo de despejo / log posteriormente, eles determinaram que o TrendMicro OfficeScan era o culpado em nosso caso. Estávamos usando uma versão que acabou não sendo explicitamente suportada no Hyper-V, uma vez que atualizamos para a versão mais recente, o problema desapareceu.

    
por 30.07.2011 / 17:06
1

Nas propriedades do adaptador de rede para o convidado da VM, você desabilitou os Pacotes Jumbo e o Large Send Offload? Com base na minha experiência com essas configurações, eu definitivamente tentaria.

    
por 30.07.2011 / 01:33
-3

link

É um problema conhecido com os adaptadores de rede Broadcom de 1 gigabyte.

    
por 25.02.2016 / 05:07