Resolução de problemas de alta taxa de retransmissão TCP

3

Estou tentando solucionar um problema de rede que apresenta uma taxa muito alta de retransmissões TCP. 36 amostras (tiradas com o Wireshark 1.10.8 rodando no Windows 7 de 32 bits) totalizando um pouco mais de sete horas, variando entre 2 e 53 minutos, cada uma mostra retransmissões ocupando entre 43 e 61% da largura de banda de ingresso total.

O que me confunde é que, até onde sei, existem apenas duas razões para esse tipo de problema: um link esquisito que libera pacotes e congestionamento. Eu acredito que eu descartei isso. Deixe-me explicar nossa situação, e eu adoraria ouvir de pessoas mais instruídas do que eu em outras direções de investigação para resolver o problema.

A rede em questão está a bordo de um navio no mar. Ele usa um link de satélite para se comunicar com a Internet. Infelizmente, os custos de largura de banda para esse tipo de link são prodigiosos, então estamos presos a uma conexão de 1Mbps para baixo / 512kbps. Sendo um link de satélite, ele executa cerca de 650 ms de tempo de ping. No momento, temos cerca de 300 pessoas a bordo, todas compartilhando esse cachimbo.

A rede consiste em duas VLANs (uma para computadores da nave e outra para convidados). Ambas as VLANs são canalizadas para um SonicWall TZ 215 (executando o SonicOS Enhanced 5.8.1.2-6o) que controla o pipe para a Internet. Ambas as VLANs têm clientes com e sem fio. A rede com fio é executada por uma série de switches Cisco 2900 gigabit. A rede sem fio é fornecida por vários APs da Cisco (a propagação de sinal em um navio de aço no mar é terrível).

Meu primeiro pensamento foi que era um problema de congestionamento, então busquei várias soluções para isso (bloqueando serviços de alta largura de banda, como bate-papo e streaming de vídeo, incomodando o escritório corporativo a pagar por um canal maior, etc.). Infelizmente, não conseguimos um cachimbo maior. As outras coisas ajudaram um pouco, mas não o suficiente para fazer uma diferença real.

Mas neste fim de semana eu fui colocado de volta à estaca zero. O capitão me pediu para desativar o acesso de convidados à Internet durante uma broca. Aproveitei essa oportunidade para fazer uma captura Wireshark da rede quando não estava congestionada. Para minha surpresa, essa amostra de 10 minutos mostrou que a taxa de retransmissão TCP foi quase idêntica a todas as outras capturas - 58%. Ao longo da duração dessa amostra, o uso médio de largura de banda foi de 98 kbps, portanto, definitivamente não estava congestionada.

Isso deixa apenas a perda de pacotes como uma causa provável. Para testar isso, eu corri doze horas de pings. No final, o programa relatou menos de 1% de perda de pacotes.

O que deixa ... o que? Eu não sei. Qualquer ideia adicional seria muito apreciada.

    
por Erick Brown 06.08.2014 / 14:56

2 respostas

1

Verifique tudo antes da sua rede. Como em: O link do satélite é esquisito. Poderia ser qualquer coisa no nível físico desse lado - calibração ruim, qualquer que seja.

De acordo com a abordagem de Sherlock Holmes, essa é a única coisa que resta. Pacotes são perdidos porque estão PERDIDOS.

    
por 06.08.2014 / 14:59
1

Uma boa maneira de detectar a perda é usando um fluxo UDP de pacotes (existem várias ferramentas que fazem isso, principalmente para testes de QoS). Você pode variar o tamanho, a frequência e o atraso. Ele deve mostrar se você tem perda real.

    
por 05.08.2015 / 20:20