Nagios com nrpe A verificação de serviço expirou

2

Ok, aqui está o acordo, estou usando atualmente dois servidores de monitoramento nagios distribuídos e mais de 70 hosts monitorados. Cada um dos hosts é monitorado via nrpe addon, cada um dos hosts tem exatamente a mesma configuração de software / hardware. Nrpe está sendo executado como um serviço xinetd no Centos 5.4 A versão do Nrpe é: 2.12 (servidor e host monitorado) Plugins Nagios são: 1.4.14

Todos os cheques nrpe são com intervalos de 5 min

Poucos dos últimos hosts inseridos ocasionalmente mostram "A verificação do serviço atingiu o tempo limite" com serviços nrpe monitorados.

Então, o que eu fiz até agora:

Eu escrevi alguns scripts de wrapper adicionais em torno desses serviços para tentar localizar a fonte de erro, tentei depurar em servidores nagios e servidores nrpe.

A partir da depuração, o seguinte definitivamente funciona:

Conectividade de rede entre hosts A porta Nrpe está aberta em ambos os hosts / servidor Nenhum tempo limite de rede é

A verificação de Nrpe é invocada corretamente e os plug-ins estão funcionando corretamente Eu até escrevi um script de log que registra data e hora no início da execução do plugin e no, e também na saída do plugin quando invocado através do nrpe. Execução nunca excede 2 segundos

O nrpe.conf está configurado para esperar pela saída do comando por 60 segundos, o plugin Nrpe no servidor de monitoramento está configurado para esperar pelo menos 30 segundos pela saída (mesmo que isso traga erros inteiramente diferentes).

De qualquer forma, isso me leva a concluir que algo está errado com o daemon nrpe no host monitorado. Mesmo que o plugin retorne o nrpe de dados de verificação, como não conseguir.

Eu até removi todos os ulimits do shell para o usuário nagios executando o daemon nrpe para eliminar isso, mas não ajudou.

De qualquer forma, qualquer ajuda é muito apreciada.

    
por ModuleC 07.12.2009 / 21:22

1 resposta

0

Ok, finalmente consegui trabalhar.

O problema é que ambos os servidores nagios estão executando verificações de serviço e reportando os resultados para o nó mestre, e todas essas verificações foram executadas perfeitamente. O nó mestre tinha a verificação de atualização do serviço, portanto, se os servidores de monitoramento não pudessem concluir as verificações, o servidor principal agendaria essas verificações a partir de si mesmo.

De qualquer forma, novos servidores estavam no novo intervalo de ip e, por padrão, a porta nrpe foi fechada no servidor mestre.

Abrir a porta resolveu o problema. Embora ainda seja estranho que ele retornou "Service check timeed out" em vez de "Socket timeout error".

    
por 15.12.2009 / 16:58

Tags