Identificando a causa do aviso de “número de processos” do Nagios no Linux

2

Acabei de começar a receber um aviso do Nagios do nosso servidor de compilação, informando que o número de processos excedeu o limite. Olhando para os nossos gráficos de Munin, posso ver que o número de processos aumentou constantemente de 280 em dezembro para o valor atual de 430.

Estou pensando em como posso identificar as causas do aumento do número de processos, para que eu possa reiniciar os serviços ou ajustar sua configuração conforme necessário.

Detalhes do servidor: O CentOS 5.1, as principais coisas em execução são o nosso servidor de compilação Hudson, que é executado sob o Tomcat, e um servidor httpd Apache, que é principalmente apenas um proxy para o Hudson. Eu tentei reiniciar o httpd e o Tomcat, mas o número de processos permaneceu o mesmo. "top" diz que apenas um dos processos está ativo; o resto está dormindo.

    
por gareth_bowles 19.07.2010 / 19:16

1 resposta

4

Teste isso regularmente para ver como as contagens de processo aumentam e diminuem para um "determinado" processo nomeado. Ele desconsidera o PID e apenas olha para o final da linha além do tempo da CPU.

ps -ef | perl -a -F'\d+:\d+:\d+ ' -n -e 'print @F[1]' -- | sort | uniq -c | sort -n

Isso funciona em uma caixa RHEL. Você pode colocá-lo no cron depois de obter uma linha de base de como é a lista de processos iniciais.

    
por 19.07.2010 / 19:35