Diagnóstico de atraso de rede aleatório

Question

Diagnóstico de atraso de rede aleatório

#1 resposta do (1 votos)
#2 resposta do (1 votos)

2

Estou com problemas para diagnosticar algum atraso aleatório em um cluster LAMP de 6 servidores que atende a um site do MediaWiki. Enquanto servimos cerca de 100 páginas / segundo, os servidores estão funcionando bem com carga menor que 0,5, sem processos bloqueados, sem paginação, sem erros sendo registrados, etc ....

O Lag está presente em todos os servidores e é aleatório: um minuto está bom, o próximo está lá.
Pesquisas de DNS nos servidores são aleatoriamente lentas. Por exemplo, time nslookup google.com varia aleatoriamente de alguns milissegundos a vários segundos e, às vezes, expira completamente. Embora usemos endereços IP internamente no cluster, isso pode ser um sintoma do problema raiz. Nós não estamos executando nosso próprio servidor DNS.
As páginas do Apache server-status são atrasadas aleatoriamente ou excedem o tempo limite. O benchmarking usando ab entre os servidores mostra que algumas cargas levam, às vezes, 3.000 ms (quase exatamente). O comparativo de% server-status no próprio servidor local geralmente não apresenta nenhum problema (mostrou um atraso apenas uma vez em algumas centenas de testes).

Os servidores estão sentados atrás de um switch e de um firewall que eu não tenho acesso, então não sei sua configuração ou status. Enquanto estamos sob carga mais pesada que o normal, um tráfego de entrada de 2 Mbps e de saída de 20 Mbps não deveria estar estressando o switch ou o firewall, não é? Meu sentimento é que é o switch / firewall ou algo acima deles no ISP como seu DNS, mas não pode confirmá-lo.

Eu preciso de alguns outros testes ou métodos de diagnosticar esse atraso para tentar diminuir a causa final.

networking diagnostic lag

por uesp 14.11.2011 / 15:54

2 respostas

1

Diagnosticar problemas quase sempre requer que você tenha algum tipo de monitoramento em vigor.

Crie algo como OpenNMS , InterMapper , Cactos , ou se você estiver desesperado Nagios e observe o tráfego, a carga do sistema, etc. quando você vê um problema. As informações fornecidas pelo sistema de monitoramento provavelmente ajudarão você a descobrir o que está errado.

por 14.11.2011 / 21:58

Tags networking diagnostic lag

Alta disponibilidade e balanceamento de carga para MySQL e Jetty Como usar o VirtualHosts no apache2 para o subdomínio móvel?

score 1 · Accepted Answer

O problema era que o firewall tinha um limite rígido de 10.000 conexões. A dificuldade em rastrear isso foi principalmente devido a não ter acesso ao firewall e convencer o provedor de serviços que realmente havia um problema.