Servidores repentinamente incapazes de fazer novas conexões; parece exaustão porto efêmera

5

Temos vários servidores Windows 2008R2 que executam vários aplicativos comerciais (por exemplo, SQL Server) e internos. É uma variedade de virtual e físico, todos os quais estão em execução há alguns anos sem problemas.

No entanto, nas últimas semanas, alguns servidores de repente deixaram de ser capazes de estabelecer uma nova conexão de rede. Um exemplo disso é um dos nossos aplicativos que se conecta ao SQL através de uma conexão de soquete normal - ele simplesmente trava. Tentando navegar para um compartilhamento de rede de o servidor afetado nos diz

The name limit for the local computer network adapter card was exceeded

Pareceu-me uma boa e efémera exaustão portuária efémera, e aumentar o número de portas efémeras resolve temporariamente o problema

Noentanto,mesmocomissoemvigor,oservidorduraapenasalgunsdiasantesqueoproblemaserepita.Alémdisso,nãoconsigoveroqueestáconsumindoumgrandenúmerodeportas-novamente,nadafoialteradonosservidores,eoproblemaocorreuem4caixasdiferentesexecutandodiferentestiposdeaplicativos.

Seeuolharparaoservidormaisativo,executandooSQLServer2014,noTCPView,mostraremoscercade1.000conexões:

Euexecutei este script que registra uso de porta efêmera e nunca ultrapassa algumas dúzias de portas.

O Process Explorer não mostra nada interessante:

Meupressentimentoéquealgono"patch Tuesday" de julho causou isso, mas eu posso estar completamente errado. Tudo o que sabemos é que os servidores que funcionam anteriormente agora param de funcionar depois de alguns dias, tudo está atualizado (em termos de drivers da Microsoft e de fornecedores), está afetando vários servidores, físicos e virtuais, e não há sinal de queima através de portas efémeras. Alguém pode sugerir como isolar o que está causando os problemas?

    
por KenD 16.08.2017 / 10:12

3 respostas

4

Parece que sua suspeita sobre a atualização de julho sendo a fonte do problema tem mérito. Tente desinstalar o conjunto de atualizações de 11 de julho de 2017 de um dos seus servidores afetados. Se o problema desaparecer, considere entrar em contato com o suporte do MS? Então, novamente, como é um "problema conhecido" que pode não ser muito produtivo ...

Problemas conhecidos nesta atualização KB4025341

Sintoma: Devido a um defeito no WLDAP32.DLL, os aplicativos que executam a busca por referência LDAP podem consumir muitas portas TCP dinâmicas (potencialmente esgotando-as)

Solução alternativa: Para contornar o problema, reinicie os serviços ou aplicativos que executam a busca de referências LDAP para liberar portas dinâmicas TCP.

    
por 22.08.2017 / 22:46
1

O script mencionado aqui pode ajudar a diagnosticar o que processo está usando as portas. Basicamente combina a saída de netsh int ipv4 show dynamicportrange tcp com netstat –ano –p tcp para ajudar no diagnóstico. O texto também menciona que isso é apenas para encontrar problemas em processos no modo de usuário, explicando como o WinDBG deve ser usado para diagnosticar problemas em processos no modo kernel.

Este tópico também menciona o Evento 4231 como outro indicador do problema.

    
por 24.08.2017 / 20:10
0

Isso é interessante. Chamei a minha atenção porque anteriormente me deparei com problemas de abertura de várias conexões tcp com servidores Windows. Você está registrando CPU, taxa de transferência de rede e percebendo alguma anomalia?

Assumindo que você está fazendo post mortem, você provavelmente checou os logs e não notou nada incomum. O tráfego está aumentando? Qualquer coisa que possa explicar o aumento nos erros. São as 4 caixas na mesma sub-rede? Acessado por diferentes aplicativos?

Outras coisas para ver, conexões compartilhadas. O intervalo estendido de portas efêmeras foi aberto quando alguma ação foi criada?

Conexões TCP TCB. Eu acho que é 2000 em 2k8 R2. Verifique novamente isso. Boa sorte com isso.

    
por 22.08.2017 / 18:39