O problema era que o firewall tinha um limite rígido de 10.000 conexões. A dificuldade em rastrear isso foi principalmente devido a não ter acesso ao firewall e convencer o provedor de serviços que realmente havia um problema.
Estou com problemas para diagnosticar algum atraso aleatório em um cluster LAMP de 6 servidores que atende a um site do MediaWiki. Enquanto servimos cerca de 100 páginas / segundo, os servidores estão funcionando bem com carga menor que 0,5, sem processos bloqueados, sem paginação, sem erros sendo registrados, etc ....
time nslookup google.com
varia aleatoriamente de alguns milissegundos a vários segundos e, às vezes, expira completamente. Embora usemos endereços IP internamente no cluster, isso pode ser um sintoma do problema raiz. Nós não estamos executando nosso próprio servidor DNS. server-status
são atrasadas aleatoriamente ou excedem o tempo limite. O benchmarking usando ab
entre os servidores mostra que algumas cargas levam, às vezes, 3.000 ms (quase exatamente). O comparativo de% server-status
no próprio servidor local geralmente não apresenta nenhum problema (mostrou um atraso apenas uma vez em algumas centenas de testes). Os servidores estão sentados atrás de um switch e de um firewall que eu não tenho acesso, então não sei sua configuração ou status. Enquanto estamos sob carga mais pesada que o normal, um tráfego de entrada de 2 Mbps e de saída de 20 Mbps não deveria estar estressando o switch ou o firewall, não é? Meu sentimento é que é o switch / firewall ou algo acima deles no ISP como seu DNS, mas não pode confirmá-lo.
Eu preciso de alguns outros testes ou métodos de diagnosticar esse atraso para tentar diminuir a causa final.
Diagnosticar problemas quase sempre requer que você tenha algum tipo de monitoramento em vigor.
Crie algo como OpenNMS , InterMapper , Cactos , ou se você estiver desesperado Nagios e observe o tráfego, a carga do sistema, etc. quando você vê um problema. As informações fornecidas pelo sistema de monitoramento provavelmente ajudarão você a descobrir o que está errado.
Tags networking diagnostic lag