Estamos executando várias VMs em um cluster de failover de 6 nós usando o Hyper V.
Temos um problema intermitente (a cada poucos dias em momentos diferentes - não uma frequência fixa) de VMs perdendo conectividade de rede. O acesso do console à VM sugere que tudo está bem e que o blade subjacente tem conectividade normal. Para resolver o problema, temos que reiniciar a VM ou, mais comumente, fazemos uma migração ao vivo para outra blade que ativa a conectividade e depois a migram de volta para a folha original.
Eu tive 3 instâncias disso acontecendo com uma VM específica em execução em um determinado blade, mas isso aconteceu uma vez com uma VM diferente em execução em um blade diferente. Todas as VMs e blades têm a mesma configuração básica e estão executando o Windows 2008 R2.
Alguma idéia em que eu deveria procurar diagnosticar as possíveis causas desse problema, já que os logs de eventos não oferecem ajuda?
Editar:
Eu verifiquei se cada blade está executando os drivers de NIC mais recentes e tudo parece estar bem.
Algo que está me confundindo - um failover ou reinicialização da VM resolve o problema. Embora eu precise resolver o problema subjacente que está causando as placas de rede para travar também estou preocupado que a VM não failover para outro nó que teria resolvido a interrupção para mim. Existe uma maneira de configurar o cluster para que ele possa informar que o convidado da VM perdeu a conectividade e a falha? Como as coisas estão, o cluster está assumindo que a VM está funcionando feliz, já que presumo que o Hyper V diz que tudo está ótimo mesmo que haja um problema.
Editar:
Pensei em atualizar isso, pois o problema ainda é excelente - menos frequente, mas ainda aparentemente aleatório, em relação a qual VM é afetada. As últimas verificações eram de que todas as VMs estavam executando os mesmos drivers MPIO e as mesmas versões de drivers para as NICs virtuais. Tudo parece ser idêntico a algumas VMs que estão sendo executadas no mesmo centro de blade, mas fora desse cluster & essas VMs nunca tiveram problemas.