Diagnóstico de atraso de rede aleatório

2

Estou com problemas para diagnosticar algum atraso aleatório em um cluster LAMP de 6 servidores que atende a um site do MediaWiki. Enquanto servimos cerca de 100 páginas / segundo, os servidores estão funcionando bem com carga menor que 0,5, sem processos bloqueados, sem paginação, sem erros sendo registrados, etc ....

  • O Lag está presente em todos os servidores e é aleatório: um minuto está bom, o próximo está lá.
  • Pesquisas de DNS nos servidores são aleatoriamente lentas. Por exemplo, time nslookup google.com varia aleatoriamente de alguns milissegundos a vários segundos e, às vezes, expira completamente. Embora usemos endereços IP internamente no cluster, isso pode ser um sintoma do problema raiz. Nós não estamos executando nosso próprio servidor DNS.
  • As páginas do Apache server-status são atrasadas aleatoriamente ou excedem o tempo limite. O benchmarking usando ab entre os servidores mostra que algumas cargas levam, às vezes, 3.000 ms (quase exatamente). O comparativo de% server-status no próprio servidor local geralmente não apresenta nenhum problema (mostrou um atraso apenas uma vez em algumas centenas de testes).

Os servidores estão sentados atrás de um switch e de um firewall que eu não tenho acesso, então não sei sua configuração ou status. Enquanto estamos sob carga mais pesada que o normal, um tráfego de entrada de 2 Mbps e de saída de 20 Mbps não deveria estar estressando o switch ou o firewall, não é? Meu sentimento é que é o switch / firewall ou algo acima deles no ISP como seu DNS, mas não pode confirmá-lo.

Eu preciso de alguns outros testes ou métodos de diagnosticar esse atraso para tentar diminuir a causa final.

    
por uesp 14.11.2011 / 16:54

2 respostas

1

O problema era que o firewall tinha um limite rígido de 10.000 conexões. A dificuldade em rastrear isso foi principalmente devido a não ter acesso ao firewall e convencer o provedor de serviços que realmente havia um problema.

    
por 18.11.2011 / 18:38
1

Diagnosticar problemas quase sempre requer que você tenha algum tipo de monitoramento em vigor.

Crie algo como OpenNMS , InterMapper , Cactos , ou se você estiver desesperado Nagios e observe o tráfego, a carga do sistema, etc. quando você vê um problema. As informações fornecidas pelo sistema de monitoramento provavelmente ajudarão você a descobrir o que está errado.

    
por 14.11.2011 / 22:58