Problemas de conectividade aleatória do Windows Server 2016

1

Espero que alguém possa me ajudar com este.

Eu tenho uma VM do Windows Server 2016 em execução no hyper-v, o host também é o Windows Server 2016. Em tempos aleatórios, a conexão com compartilhamentos de rede em outros servidores pelo nome \\ SERVER falhará, a conexão com \\ IPADDRESS sempre funcionará.

O servidor está conectado a um comutador virtual com acesso dedicado ao adaptador Broadcom NetXtreme Gigabit dos hosts.

Este é o único servidor neste site e está conectado ao nosso site principal através de uma VPN IPSEC.

O servidor funciona como controlador de domínio, servidor DHCP, servidor DNS e servidor de arquivos.

Primeiramente, observei o problema quando a replicação do AD estava falhando. Investigações posteriores revelaram que não consegui me conectar ao controlador de domínio em nosso site principal via SMB \\ SERVER, mas consegui me conectar com \\ IP. Ping no servidor pelo nome funciona e o DNS parece estar funcionando.

Erros retornados ao conectar a \\ SERVER são "O Windows não consegue encontrar o SERVIDOR. Verifique a ortografia e tente novamente" ou "Caminho de rede não encontrado"

Consegui me conectar a outros servidores pelo nome em nosso site principal.

Enquanto eu estava resolvendo algumas horas depois, o DFSR começou a falhar em um servidor diferente em nosso site principal. O erro no log "A chamada de procedimento remoto falhou e não foi executada" Eu encontrei os mesmos sintomas ao conectar a este servidor como fiz com o primeiro, a única diferença foi que os problemas de comunicação começaram mais tarde.

Eu reiniciei a VM e descobri que tudo estava de volta ao normal e funcionando, o AD estava replicando bem e o DFRS estava conectado e funcionando.

No dia seguinte, eu entrei no servidor e descobri que tudo havia falhado novamente e os mesmos problemas de rede.

Além disso, a solução de problemas revelou que a desativação e a reativação da conectividade restaurada da placa de rede Hyper-v da Microsoft, mas o problema ocorre em momentos aleatórios.

Os logs no servidor não mostram nada fora do comum. Diferente dos erros da replicação do AD, DFRS e DNS. Os erros do DNS são:

  • O servidor DNS encontrou um erro crítico no Active Directory. Verifique se o Active Directory está funcionando corretamente.

  • O servidor DNS não pôde ligar um soquete UDP (User Datagram Protocol) a 172.18.0.10. Os dados do evento são o código de erro. Reinicie o servidor DNS ou reinicie o computador.

  • O servidor DNS não pôde abrir o soquete para o endereço 172.18.0.10.

  • Verifique se este é um endereço IP válido para o computador servidor. Se NÃO for válido, use o diálogo Interfaces em Propriedades do Servidor no Gerenciador DNS para removê-lo da lista de interfaces IP. Em seguida, pare e reinicie o servidor DNS. (Se esta foi a única interface IP nesta máquina e o servidor DNS pode não ter sido iniciado como resultado desse erro. Nesse caso, remova o valor DNS \ Parameters \ ListenAddress na seção de serviços do Registro e reinicie.)

  • O servidor DNS não pôde ligar um soquete TCP (Transmission Control Protocol) ao endereço 172.18.0.10. Os dados do evento são o código de erro. Um endereço IP de 0.0.0.0 pode indicar uma configuração válida de "qualquer endereço" na qual todos os endereços IP configurados no computador estão disponíveis para uso. Reinicie o servidor DNS ou reinicie o computador.

Todos os erros nos logs desaparecem quando o adaptador de rede hyper-v é reiniciado. Eu assumo que esses erros são causados pelos problemas de conectividade.

Eu li em algum lugar que o VMQ deve estar desabilitado no NIC do host, o que eu verifiquei e foi. Também tentei desinstalar o adaptador de rede Hyper-v da Microsoft e reinstalá-lo e reinstalar o host dos drivers da placa de rede.

Alguém tem alguma ideia do que está acontecendo, parece um problema de DNS, mas o DNS está resolvendo nomes corretamente com o nslookup.

Qualquer ajuda seria muito apreciada.

    
por Mike 26.01.2018 / 14:21

1 resposta

0

Parece que eu estava procurando no lugar errado. O problema era a VPN entre sites.

Depois de executar uma captura de pacotes, pude ver alguns pacotes não chegando ao destino e retransmissões repetidas. Investigações posteriores revelaram que os pacotes que não o faziam tinham o bit DF colocado neles.

Usando o ping -f -l SIZE SERVER

Eu era capaz de determinar que o MTU era 1362 e observei que os pacotes que não conseguiam passar com o conjunto de bits DF eram maiores que isso. Porque eles não podiam ser fragmentados, eles estavam sendo descartados pelo roteador.

Reduzir o MSS máximo de 1400 para 1350 no nosso equipamento de segurança no site principal resolveu o problema.

Acho que uma vez eu observei que uma reinicialização do adaptador de rede curaria o problema por um tempo e presumi que o problema estava no servidor.

De qualquer forma, está tudo resolvido, não tenho certeza se este post vai ajudar alguém, mas pelo menos é respondido.

    
por 01.02.2018 / 13:36