Resolução de falhas e lentidão de rede intermitentes

1

Eu coloquei um diagrama da nossa rede e equipamento aqui: link

Sintomas

  • Duas vezes em três semanas, passamos por falhas de rede intermitentes. Estes geralmente se manifestam como um tempo limite em uma página da web, ou às vezes falta de conteúdo do site (folhas de estilo não carregam, por exemplo). O problema ocorreu em todos os andares do nosso prédio. Normalmente, uma atualização forçada da página será corrigida.
  • Tracert para a página da Web funcionará toda vez que eu tentar, mesmo quando eu estiver consistentemente recebendo erros de carregamento de página em cada segundo ou terceiro novo URL. Às vezes, o segundo salto falha, embora isso possa simplesmente refletir que o ICMP está bloqueado por esse endereço IP.
  • Alguns usuários tiveram um desempenho de rede lento.
  • Enquanto isso, o uso geral da rede parece ser normal, bem abaixo do limite do canal de 10 MB.
  • Fazer um teste de velocidade no speedtest.net dá resultados normais - um pouco abaixo do limite, como esperado devido a não ser o único usuário na rede.
  • Uma vez, quando saí e recebi uma ligação de emergência, sugeri que nossa equipe de TI reiniciasse o roteador ou o firewall. Eles reiniciaram o firewall, que aparentemente resolveu o problema por algumas semanas.

Visão geral da rede Veja o diagrama aqui: link .

Temos duas conexões de rede, uma principal e uma conexão de failover. Ambas as conexões de rede são conectadas diretamente ao firewall. Do firewall ao nosso principal switch, a conexão é de cobre, cat5e. A porta é configurada para 100 megabits full duplex. Alguns usuários são conectados diretamente a este comutador por meio de um IDF, outros usuários em andares diferentes têm um comutador separado, conectado ao comutador principal via fibra, e vão de lá para um IDF.

Durante a janela em que pude observar o firewall, a conexão de failover não parece ter sido ativada. A maneira como funciona é quando um limite de largura de banda é atingido (10 MB) quando a conexão secundária entra em ação. Ele também é usado se a conexão principal for completamente interrompida.

Solução de problemas já realizada

  • Conectado ao switch gerenciado, analisou as estatísticas da porta com link de cobre. Tudo parece normal, mas não sei 100% o que procurar. Procurei por quedas e colisões; ambos estavam baixos nesta porta em particular. Não tenho certeza do intervalo de tempo para a coleta de dados sem um servidor de registro externo.
  • Estatísticas assistidas no firewall por um tempo. Utilização de largura de banda observada, relatórios de erros. Nenhuma inundação incomum de conexões.

Minha pergunta

O que devo investigar a seguir e quais etapas devo seguir? Algum palpite sobre o tipo de problema que estou encontrando aqui - cabo, switch, firewall ou ISP? Quais são algumas ferramentas que podem me ajudar a testar os vários componentes envolvidos aqui? O problema é difícil porque é intermitente. Eu acho que posso usar o SNMP para coletar dados do switch por um período de tempo mais longo, bem como para o firewall, mas isso seria um grande projeto com muito a aprender para mim. Há alguma mudança de configuração que valha a pena ser feita? Ajustando um tempo limite que eu posso fazer globalmente?

Qualquer ajuda seria muito apreciada. Obrigado!

    
por Quinten 25.10.2011 / 23:20

3 respostas

2

Sem entrar em muitas orientações específicas, que tenho certeza que os outros oferecerão:

  1. Não faça alterações sem saber que o componente específico que está sendo alterado é a causa do problema e que a alteração resolverá o problema. Fazer mudanças aleatórias na esperança de que algo funcione é análogo a dirigir um carro vendado. Você pode consertar o problema, mas isso só será devido a pura sorte e você nunca saberá qual foi a verdadeira causa.

  2. Você já atingiu algo: o firewall. Se for o caso de reiniciar o firewall resolveu o problema da última vez, então é aí que eu começaria. Dê uma olhada, se possível, em quaisquer contadores disponíveis no firewall, como CPU e uso de memória, cargas de tráfego, pacotes descartados, etc. Coloque um sniffer de rede dentro e fora do firewall e execute alguns testes em uma máquina cliente . Você vê pacotes caídos por dentro? No lado de fora? Qual é a duração do tráfego quando ele entra e sai do firewall? Existe um atraso acentuado?

De lá, eu mudaria para o switch ou o roteador e executaria os mesmos testes, dependendo dos resultados do teste do firewall.

    
por 25.10.2011 / 23:51
0

O isolamento de um problema intermitente pode ser problemático. Seria uma boa ideia instalar algum tipo de monitoramento para verificar freqüentemente a disponibilidade e o tempo em várias camadas.

Execute pings ICMP frequentes para

  • uma máquina interna separada por switches
  • a interface interna do seu appliance de firewall
  • os roteadores dos seus ISPs (leve o primeiro roteador para fora da organização que você vê ao longo do caminho ao usar o traceroute)
  • alguns servidores de infraestrutura dos seus ISPs (por exemplo, os servidores de nomes ou os servidores de email)
  • um website público com alta disponibilidade (por exemplo, google.com)

Adicione também algumas solicitações HTTP frequentes usando wget com recursive retrieval e --delete-after statements - escreve datetime-stamps, timings de execução e erros em um log.

Combinar essas informações deve ajudá-lo a cercar a área do problema.

    
por 26.10.2011 / 09:42
0

Qual versão do firmware você está usando na Firebox? Eu pareço isso com esses problemas recentemente. Nós atualizamos para V12 e isso resolveu o problema.

    
por 28.10.2011 / 09:42