Sem fazer nenhuma alteração no nagios3 config ou sistema de arquivos do sistema (debian) muda quando eu adiciono alguns dispositivos extras (para o 12000+ já existente) de repente
[1508925621] Warning: Return code of 127 for check of service 'PING' on host 'SOME-HOST.CISCO' was out of bounds. Make sure the plugin you're trying to run actually exists.
[1508925621] SERVICE ALERT: SOME-HOST.CISCO;PING;CRITICAL;HARD;3;(Return code of 127 is out of bounds - plugin may be missing)
Todos os binários são legíveis / executáveis, nada disso mudou desde a configuração.
Isso acontece para TODOS os hosts desse tipo, tenha em mente que esta é uma configuração que funcionou durante anos sem parar, a única coisa que posso pensar é que algum tipo de limite de SO é atingido ao executar as verificações, pois é a única coisa isso muda, mais hosts.
Eu tive max_concurrent_checks=1500
por um longo tempo. (É um servidor físico de 16 núcleos de 24 GB de RAM)
Além das verificações simultâneas, eu corro
check_result_reaper_frequency=25
max_check_result_reaper_time=20
O grande grupo de hosts é configurado da seguinte forma:
define host{
use generic-cisco
host_name SOME_HOST.CISCO
alias SOME_HOST.CISCO
address xxx.xxx.xxx.xxx
check_command check-host-alive
hostgroups cisco_devices
}
define service{
use generic-service
host_name SOME_HOST.CISCO
service_description PING
check_command check_ping!200.0,20%!600.0,60%
normal_check_interval 10
retry_check_interval 5
}
A única coisa a fazer retornar a um estado de trabalho é tirar alguns dos hosts mais recentes que eu adicionei e parar e iniciar e espero que funcione bem. Alguma sugestão?