O SvW não está errado em qual (is) ele escreve, mas você também deve investigar a variável max_check_attempts
, que define quantas verificações um serviço deve falhar antes de passar por um erro HARD e notificar.
Para alguns dos meus serviços de gatilho, tenho
max_check_attempts 2
check_interval 2
retry_interval 1
, o que significa que NAGIOS irá verificar com mais frequência do que o habitual, e uma vez que perceba que algo está errado, ele esperará 1 minuto, verifique mais uma vez e notifique. Para outros serviços, onde eu não me importo até que tenha estado por um tempo, eu tenho
max_check_attempts 12
check_interval 5
retry_interval 5
o que significa que, uma vez que o NAGIOS perceba que algo está errado, ele continuará checando a cada 5 minutos, como de costume, e não me dirá até que esteja inativo por uma hora.
É definitivamente que vale a pena ajustar o seu NAGIOS até que ele fale sobre as coisas que você gosta, no momento em que você se importa com elas, e nada mais; um sistema de monitoramento que emite uma nuvem de falsos positivos (ou seja, envia muitas notificações com as quais você não se importa) é quase tão inútil quanto um que tenha falsos negativos (ou seja, não percebe um problema real).