Problemas Bizarros do Windows Update - perda de conectividade

1

Estou vendo um problema realmente bizarro que estou tendo problemas para isolar.

Cenário: uma pilha de servidores Dell Poweredge atuando em um cluster estável. Tentativa de aplicar algumas atualizações do Windows, servidores perdidos internet e confiança de domínio. Não foi possível restabelecer a confiança do domínio. Atualização desinstalada, funcionou. Reinstalado, tudo bem. Mesma coisa em outro servidor, então tomei a decisão de reconstruir a linha de base. Servidores foram reconstruídos a partir do zero: O firmware mais recente foi aplicado (BIOS, NICs, RAID, etc.) e o nível mais recente de drivers. Padrão 2012R2 Datacenter construir, em rede e depois para as atualizações. Em diferentes fases da compilação, estão sendo aplicadas atualizações que eliminam a conexão com a Internet. DNS resolve totalmente, você pode pingar, traceroute etc, mas o navegador não funciona. Além disso, se você tentar ingressar no domínio neste ponto, será "Caminho de rede não encontrado". Múltiplas tentativas para restaurar a conectividade falhar.

Em alguns casos, um servidor chega ao estágio em que ele está pronto para ingressar no domínio, após o qual outro conjunto de atualizações aparece após a associação pós-domínio, e algumas delas cancelam a conexão com a Internet novamente. Neste ponto, a relação de confiança com o domínio também é perdida.

Na maioria das vezes, um simples processo de desinstalação da atualização e reinicialização mais recentes restaurará a conexão. Você pode reinstalar a mesma atualização e o servidor continua a se comportar. Se estiver no domínio nesse momento, preciso redefinir a conta da máquina para restaurar a confiança. Então, isso acontecerá novamente em um estágio posterior da construção com uma atualização diferente.

Eu descartei ser uma única atualização responsável, pois acontece em vários estágios com diferentes rollups sendo aplicados. Tentei várias revisões de driver / firmware para o servidor. Não há bloqueio de firewall na rede. Nenhum software de segurança. Nenhum firewall do Windows. Eu mesmo sysprepped um servidor de volta e reconstruiu sua infra-estrutura NIC e a internet ainda falhou até que eu reverti a atualização em que ponto ele funciona. Em seguida, rolou para frente novamente e o problema desapareceu.

Na maioria das vezes, posso chegar a um ponto em que o servidor é estável e está em uso de produção, desde que eu não aplique mais atualizações.

Alguém tem alguma experiência de algo remotamente semelhante a isso?

    
por TheBigE 19.05.2017 / 10:24

1 resposta

1

Eu pensei em postar uma atualização sobre isso, resolvi o problema agora.

Como se constata, as atualizações do Windows foram um verdadeiro artifício. Acontece que foram atualizações que eu estava executando enquanto o problema ocorreu, mas na verdade parece que foi simplesmente o processo de reinicialização que matou a pilha TCPIP. Eu era capaz de recriar o problema várias vezes por uma simples reinicialização e, em seguida, redefinir por Netsh Winsock Reset e reinicialização iria trazê-lo de volta à vida. Estranhamente, muitas vezes, desinstalar uma atualização recente e reinicializar teria o mesmo efeito - mas nem sempre. O que estava por trás disso? Parece ser as placas NIC. Embora o firmware e os drivers mais recentes, uma das configurações de RSS (Receive Side Scaling) estava causando o problema. Isso permite que o tráfego da NIC seja distribuído em vários processadores, em vez de ser restrito a apenas um. Um ajuste de ajuste de desempenho típico que causa mais problemas do que resolve. Eu desativei e hey-presto, tudo está estável novamente. Eu posso corrigir e reiniciar o conteúdo do meu coração sem perder a pilha TCPIP:)

Um problema muito obscuro, mas talvez alguém encontre algo semelhante e a desativação do RSS possa ajudar.

    
por 23.05.2017 / 09:46