O que causa o problema (possivelmente a perda de pacotes) neste cenário

1

Estou tentando diagnosticar um problema relacionado à rede - por favor, entenda esses pontos antes de sugerir uma resposta (desculpas se mais informações forem necessárias, adicionarei qualquer coisa que as pessoas perguntem).

  • Temos uma rede somente de servidor (5 servidores de aplicativos, 4 servidores de banco de dados, alguns outros servidores) que parecem estar sofrendo perda de pacotes entre servidores
  • Eu posso ver isso acontecendo em wireshare - há um monte de retransmissões TCP, TCP_Out-of-Order, TCP Dupack e acho que alguns pacotes TCP_ZeroWindow também.
  • Parece haver muitas más verificações no protocolo IP
  • Acho que os adaptadores de rede têm uma carga muito constante e alta (90-100%) devido às tentativas extras causadas por essa perda de pacotes
  • À medida que as solicitações externas dessa rede aumentam (para os servidores de aplicativos), o desempenho da rede diminui
  • os servidores de aplicativos geram seu próprio tráfego quando usados pela solicitação externa
  • As solicitações externas vêm por meio de um roteador central e a rede está em seu próprio segmento
  • Esta alta carga "magicamente" desapareceu após 1-2 dias, eu digo magicamente como nós onde apenas o monitoramento nos adaptadores no momento em que a carga caiu, ainda há perda de pacotes mostrando em wireshark, embora em menor quantidade.
  • Nada aponta para um servidor comprometido.
  • Infelizmente, não temos acesso físico a nenhum hardware
  • Não podemos interromper o serviço atual

Dado o acima, qual é a melhor maneira de determinar o que está causando a perda de pacotes (esperamos que seja um switch gerenciado).

Existe algum software que possa fornecer evidências empíricas do que está causando os problemas?

Obrigado antecipadamente

    
por Mr Shoubs 03.03.2011 / 00:50

1 resposta

2

Na minha experiência, o Wireshark pode retornar resultados não confiáveis em interfaces que estão usando o TCP-Offload de hardware. Pacotes duplicados são um dos sintomas disso.

Dito isto, se você estiver usando uma porta span / mirror para capturar suas capturas, duplicar os acks no fio são um problema significativo.

ACKs duplicados, fora de ordem e retransmissões são sinais de que a pilha TCP em algo não está se comportando corretamente. Correlacionar quais nós da rede estão propensos a lançar os erros ajudará a isolar quais hosts precisam investigar mais detalhadamente. Quaisquer diferenças nas capturas de rede entre uma captura de porta span / espelho e uma sessão wireshark nesse nó específico devem ajudar a destacar problemas que possam estar ocorrendo. Se você vir alguns, investigue a atualização dos drivers de rede, pois esses são frequentemente a solução mais fácil para esse tipo de problema (a Broadcom é notoriamente notória por isso). Em segundo lugar, atualizar o firmware das NICs também pode ajudar.

Se tudo parece saudável, você pode estar vendo o normal que o TCP faz quando há muito tráfego para lidar.

O TCP Zero-Window também é um sinal de uma pilha TCP / IP não íntegra, embora, na minha experiência, isso ocorra às vezes quando duas pilhas TCP / IP diferentes não estão se dando bem juntas. Tal como pode acontecer com o Windows 2008 e algumas pilhas TCP / IP mais antigas no espaço do Linux.

    
por 03.03.2011 / 01:22