Ok, aqui está o acordo, estou usando atualmente dois servidores de monitoramento nagios distribuídos e mais de 70 hosts monitorados.
Cada um dos hosts é monitorado via nrpe addon, cada um dos hosts tem exatamente a mesma configuração de software / hardware.
Nrpe está sendo executado como um serviço xinetd no Centos 5.4
A versão do Nrpe é: 2.12 (servidor e host monitorado)
Plugins Nagios são: 1.4.14
Todos os cheques nrpe são com intervalos de 5 min
Poucos dos últimos hosts inseridos ocasionalmente mostram "A verificação do serviço atingiu o tempo limite" com serviços nrpe monitorados.
Então, o que eu fiz até agora:
Eu escrevi alguns scripts de wrapper adicionais em torno desses serviços para tentar localizar a fonte de erro, tentei depurar em servidores nagios e servidores nrpe.
A partir da depuração, o seguinte definitivamente funciona:
Conectividade de rede entre hosts
A porta Nrpe está aberta em ambos os hosts / servidor
Nenhum tempo limite de rede é
A verificação de Nrpe é invocada corretamente e os plug-ins estão funcionando corretamente
Eu até escrevi um script de log que registra data e hora no início da execução do plugin e no, e também na saída do plugin quando invocado através do nrpe. Execução nunca excede 2 segundos
O nrpe.conf está configurado para esperar pela saída do comando por 60 segundos, o plugin Nrpe no servidor de monitoramento está configurado para esperar pelo menos 30 segundos pela saída (mesmo que isso traga erros inteiramente diferentes).
De qualquer forma, isso me leva a concluir que algo está errado com o daemon nrpe no host monitorado. Mesmo que o plugin retorne o nrpe de dados de verificação, como não conseguir.
Eu até removi todos os ulimits do shell para o usuário nagios executando o daemon nrpe para eliminar isso, mas não ajudou.
De qualquer forma, qualquer ajuda é muito apreciada.