Encontrando causa de retransmissão TCP dentro de uma LAN

22

Olá habitantes da falha do servidor

Eu tenho um problema irritante com uma LAN de cerca de 100 computadores, 2 servidores de domínio do Windows e 12 telefones de VoIP. Desde sua instalação há cerca de um ano, a cada semana, notamos um telefone VoIP sendo redefinido - ocasionalmente, no meio de uma chamada. Simultaneamente, há frequentemente sinais de perda temporária de conexão nos computadores: congelamentos no explorador durante o acesso a compartilhamentos de rede, erros em nosso software de administração devido à perda de conexão com o servidor de banco de dados.

Eu tenho feito algum monitoramento Wireshark na conexão entre o PBX VoIP e o resto da rede. O Wireshark pega uma quantidade de pacotes TCP retransmitidos nos momentos em que gravamos as reinicializações do telefone. O log do Wireshark mostra cerca de 2 grupos de retransmissões por dia, variando de 5 pacotes a centenas. Aqueles em cada cluster são principalmente entre o PABX e algum conjunto de telefones VoIP, mas nem sempre o mesmo conjunto. Muitas vezes, as retransmissões ao mesmo tempo são para telefones conectados ao mesmo switch, mas às vezes as retransmissões ocorrem juntas em telefones em extremidades opostas da rede. Geralmente, há algumas retransmissões coincidentes na transmissão do tráfego TCP, por exemplo, entre máquinas clientes e servidores de arquivos.

Os picos nas retransmissões e redefinições de telefone não se correlacionam bem quando a rede está sobrecarregada. Eles parecem ocorrer um pouco mais durante o dia, mas a maioria à noite, quando o tráfego deve estar diminuindo. Ocorrem razoavelmente frequentemente tarde da noite quando a maioria dos computadores está desligada e o tráfego deve ser menor.

Você tem alguma ideia que possa ajudar a diagnosticar a causa de problemas como esse? Uma coisa que eu ainda não tentei, mas deveria ter, é atualizar o firmware de todos os switches.

    
por Surreal 20.05.2010 / 23:47

6 respostas

14

As retransmissões TCP são geralmente devido ao congestionamento da rede. Procure por um grande número de pacotes de transmissão no momento em que o problema ocorre. Se a porcentagem de tráfego de broadcast em sua captura estiver acima de cerca de 3% do tráfego total capturado, você definitivamente terá um congestionamento. Procure transmissões de camada física (ARP) e de camada de rede (resolução de nomes) na rede. Se você encontrar um alto volume de tráfego de broadcast, poderá rastreá-lo para a fonte a partir dos dados de captura.

    
por 21.05.2010 / 01:02
1

A coleta de estatísticas de tráfego para seus comutadores pode mostrar que você tem períodos em que está sendo executado na capacidade ou perto dela. Isso pode levar a novas tentativas quando as respostas não retornarem dentro do tempo limite inicial (geralmente 3 segundos). Isso aumenta o congestionamento momentaneamente até que os mecanismos de mitigação de congestionamento entrem em ação.

Procure pessoas que usem mídia de streaming, pois elas podem absorver a largura de banda rapidamente.

Você pode atenuar o problema dos telefones pela modelagem de tráfego. Isso apenas moverá o problema para outros usuários.

    
por 21.05.2010 / 03:04
1

Soa como um loop de spanning tree ou uma tempestade de broadcast para mim, especialmente se as retransmissões e os problemas estiverem localizados no mesmo switch (o que difere). Quando isso acontece, quais são os estados da porta no seu dispositivo L2? Provavelmente um mau switch ou prioridades ruins de bridge raiz? Problema interessante.

    
por 21.05.2010 / 03:09
1

Você provavelmente resolveu isso já que tem sido tão longo, mas essencialmente você precisa habilitar "porta rápida" nas portas que possuem endpoints (telefones voip, estações de trabalho, servidores). Um telefone pode enviar PDUs, portanto, se esse cara for reinicializado, ocorrerá uma convergência de STP, fazendo com que a tabela FDB seja liberada e todos os dispositivos passem pela etapa 4/5 da etapa STP. Colocando portas com endpoint em "port fast" elas pulam a espera e vão direto para o modo de redirecionamento.

    
por 13.04.2012 / 05:28
0

Espero que seus telefones estejam em uma sub-rede e VLAN diferentes dos outros computadores?

    
por 21.05.2010 / 01:18
0

Também pode ser um equipamento defeituoso, como um interruptor defeituoso. As retransmissões estão correlacionadas a telefones / computadores em um determinado switch ou parte da rede?

Só para estender minha resposta um pouco. Nem todos os switches são criados iguais, mesmo que tenham as mesmas especificações. Alguns são capazes de lidar com uma carga muito maior do que outros, porque eles têm processadores mais rápidos no interior. Pode ser que os seus interruptores não estejam no nível certo.

Eu começaria colocando alguns de seus telefones VoIP mais problemáticos em seu próprio switch físico e verificando se as reinicializações deles continuam. Se for embora, você está na estrada para resolvê-lo muito em breve.

    
por 21.05.2010 / 01:34