Falha do ambiente do Hyper-V de cluster

2

Temos um ambiente de duas redes de host (NIC Team) e de cobre (Nic Team2). Os hosts são agrupados e usam o 2012-R2 Standard (atualizado) com o Hyper-V Clustering e pools de armazenamento. As VMs são cerca de 50 máquinas Debian igualmente distribuídas. As redes são três sub-redes, Cluster, Switch 0, Switch 1. Duas são cluster e client, uma é somente cluster.

De vez em quando, todo o ambiente falha. Os sinais mais visíveis são CPU nas VMs, salto para 100% e o acesso à rede para máquinas físicas e virtuais é inutilizável. A única maneira de combater isso é um desligamento de ambos os hosts que, quando feito, retorna ao normal.

Agora, aqui está o que eu acho que rastreio os logs e visualizo nossos dados agregados de registros e desempenho (nota: nem toda mensagem se aplica a cada incidente, isso é um agregado):

Windows:

As portas do TCP saem / ponto de extremidade TCP local mesmo como remotas, reutilizando portas locais - ID do Evento 4227

-I / O acesso redirecionado pela rede - EventCode = 5121

-O Volume compartilhado do cluster está pausado - EventCode = 5121

- Ponto de extremidade local do TCP igual ao remoto, reutilizando portas locais - ID do Evento 4227

Esgotamento da porta efêmera - Evento ID 4231

Linux:

-Alta CPU no TOPO - ksoftirq

Minha interpretação: Há um vazamento no lado host ou vm que come todas as portas TCP e faz um backup de VMQs. Isso cria um backlog no ambiente que causa uma falha.

Meu problema: como determinar exatamente o que causa o problema? Existem maneiras de atenuar o problema sem conhecer os detalhes?

    
por user206106 22.06.2017 / 21:56

2 respostas

1

Como a funcionalidade do Teaming não tem nenhuma funcionalidade de balanceamento de carga i que equilibre a carga entre as NICs agrupadas, o problema pode ser baseado no aspecto de agrupamento de NIC da configuração. Você tentou remover as equipes para fins de teste?

    
por 29.06.2017 / 11:52
0

Não é uma resposta direta, mas alguns conselhos gerais

A maioria dos problemas que enfrentamos foi resolvida com a instalação dos hotfixes publicados pelo MS. Tantas pessoas estavam lá que dedicaram páginas para listá-las, e eu não acho que elas se incomodaram em colocá-las todas em atualizações:

Hyper-V 2012 R2 e hotfixes relacionados (também links para outras listas relevantes, por exemplo, HNV, clusters)

Existe um script que alguém publicou e instalará a maioria deles. Eu acho que é este .

Além disso. Se você suspeitar que seja relacionado ao VMQ, você tentou ajustar a configuração ou desativá-la no nível da VM?

Orientações para a configuração correta do VMQ

Os estados de pausa que vimos também foram causados por duas coisas. Desempenho de armazenamento lento e LUNs superdimensionados. O último problema foi apenas quando tínhamos muitos snapshots VSS ativos durante a janela de backup - provavelmente não relevantes neste caso. Verifique o log de diagnóstico do cluster para obter mais informações sobre o evento de pausa automática ou procure o código de status / razão c000026e (por exemplo) na web.

Solução de problemas de CSV

Além disso ... Atualizações de driver e firmware nos dispositivos NIC e de armazenamento.

    
por 23.06.2017 / 00:10