Atrasando um cheque de Nagios / Icinga

2

Ao monitorar a integridade de um servidor, algumas falhas ou avisos são imediatamente urgentes, mas outras só importam se persistirem. Estou pensando em coisas como:

  • Alguns softwares precisam ser atualizados
  • O deslocamento de tempo difere do NTP

Se não forem endereçados, eles podem se tornar problemas reais, mas já existem serviços de segundo plano para cuidar deles - atualizações autônomas, um serviço de cliente NTP etc. Sempre há um pequeno atraso entre o problema que surge e esses processos em segundo plano entrando em ação. resolvê-los, e nosso monitor está enviando uma série de e-mails nessa lacuna - e, novamente, um minuto depois, quando o problema é resolvido. Eu geralmente acordo com uma grande pilha de e-mails "PROBLEM", cada um com os e-mails de "RESOLUÇÃO" correspondentes enviados um minuto depois. O perigo é que, ao dispensar uma centena de avisos irrelevantes, eu poderia perder o que é real.

Então, há alguma maneira de instruir Icinga ou Nagios a relatar um problema apenas se ele continuar por mais de um certo tempo, digamos, 5 minutos?

    
por Marcus Downing 25.04.2014 / 11:36

2 respostas

5

O SvW não está errado em qual (is) ele escreve, mas você também deve investigar a variável max_check_attempts , que define quantas verificações um serviço deve falhar antes de passar por um erro HARD e notificar.

Para alguns dos meus serviços de gatilho, tenho

max_check_attempts              2
check_interval                  2
retry_interval                  1

, o que significa que NAGIOS irá verificar com mais frequência do que o habitual, e uma vez que perceba que algo está errado, ele esperará 1 minuto, verifique mais uma vez e notifique. Para outros serviços, onde eu não me importo até que tenha estado por um tempo, eu tenho

max_check_attempts              12
check_interval                  5
retry_interval                  5

o que significa que, uma vez que o NAGIOS perceba que algo está errado, ele continuará checando a cada 5 minutos, como de costume, e não me dirá até que esteja inativo por uma hora.

É definitivamente que vale a pena ajustar o seu NAGIOS até que ele fale sobre as coisas que você gosta, no momento em que você se importa com elas, e nada mais; um sistema de monitoramento que emite uma nuvem de falsos positivos (ou seja, envia muitas notificações com as quais você não se importa) é quase tão inútil quanto um que tenha falsos negativos (ou seja, não percebe um problema real).

    
por 25.04.2014 / 11:43
3

Você pode definir configurações detalhadas para informar ao Nagios todos os detalhes sobre a verificação de um serviço.

Procure as opções check_interval e retry_interval config e, enquanto estiver fazendo isso, aprenda sobre períodos de tempo em geral.

    
por 25.04.2014 / 11:41