O CIFS / SMB faz com que a máquina virtual (e eventualmente o host do Hyper-V) seja interrompida

1

Passei muito tempo nisso.

Temos uma Microsoft Private Cloud de 8 nós, hospedada em um Cisco Flexpod (blades B200, Nexus 5k e 6248FI com dois controladores NetApp FAS2550 para SAN). Executando o firmware do UCS 2.2 (5a).

Todos os hosts são inicializados pela SAN e executam o Datacenter Server 2012 R2. Há um CSV montado em cada host, que hospeda os 70 VHDX de nossa máquina virtual.

Recentemente, nos mudamos para o Visual Studio Online e comissionamos vários servidores de compilação (bem, 3). Quando a construção estiver concluída, os artefatos serão publicados em nossos ambientes de teste e teste, cada um consistindo em uma única máquina virtual executando o Server 2012 R2 Standard. Esta publicação usa o Robocopy para copiar os artificats para o compartilhamento C $ dessas máquinas virtuais.

Quando essa cópia acontece, vemos o seguinte:

  • A GUI da máquina virtual não responde
  • Ao conectar-se à VM durante esse estado, não conseguimos efetuar login (às vezes, ctrl-alt-del não tem efeito; às vezes, o prompt de login é mostrado, mas a digitação não é exibida na caixa de senha)
  • Se tivéssemos efetuado login antes do tráfego CIFS / SMB ser iniciado, os elementos da interface gráfica continuarão em execução até você interagir com eles
  • Depois de um tempo, todas as máquinas virtuais hospedadas no mesmo host do Hyper-V começam a ter tempos limite
  • A VM não responde aos comandos de desligamento por meio do gerenciador de cluster de failover, e temos que desativar a VM, o que leva um pouco de tempo, mas conclui
  • Após a reinicialização da VM, tudo corre bem até você tentar copiá-la novamente
  • VMs existentes (por exemplo, VMs comissionadas há muito tempo) não são afetadas, são apenas comissionadas no último mês

Para depurar, eu tentei um manual (ou seja, copiar e colar o Windows), que exibe o mesmo problema.

Eu tentei:

  • Alterando as configurações de dimensionamento de lado
  • VMQ desativado (mesmo que não tenhamos adaptadores da Broadcom, mas Cisco VICs), tanto no host quanto no adaptador de rede da VM
  • Reiniciou todo o cluster (reinicialização dos hosts)
  • Criando uma nova VM, sem atualizações do Windows. Experimenta o mesmo problema
  • Confirmado que não temos endereços IP duplicados
  • Não há nenhum AV em execução em nenhum dos hosts ou VMs convidados
  • Como os itens da GUI que estão abertos antes do início do problema continuam em execução, executei o Monitor de Recursos e verifiquei a utilização do disco. Quando o problema é iniciado, o E / S de disco cai para quase 0. Nesse ponto (juntamente com as ferramentas de monitoramento específicas da NetApp e o fato de as VMs em todos os outros nós continuarem funcionando), eliminei o componente de armazenamento como o culpado. Veja abaixo a captura de tela de quando a cópia começou:

Observe a queda no disco IO. Aliás, todas as outras VMs no mesmo IO de disco do host Hyper-V caem para 0 ao mesmo tempo.

Fora de frustração, esta manhã eu criei uma Máquina Virtual Gen1, e comissionei como faria com qualquer outra Gen2. Isso por alguma razão desconhecida, funciona. Se eu copiar para o compartilhamento C $ de uma máquina Gen2, ele falhará. Se eu copiar exatamente do mesmo local, para o compartilhamento C $ dessa nova máquina Gen1, não haverá problemas.

Atualização: Eu também notei que a cópia das máquinas Gen2 está bem. Apenas quando copiar para eles o problema é exibido.

O que poderia estar causando isso? Qual é a diferença entre Gen1 e Gen2? Poderia ser um problema de firmware UCS.

    
por grimstoner 28.09.2016 / 12:16

0 respostas