problema de manipulador de transição e evento de estado Nagios

1

Estamos usando o Nagios para verificar processos duplicados.

define service
{         
    use                             local-service    
    host_name                       xxx
    service_description             xxx Duplicate Processes
    check_interval                  1
    max_check_attempts              1
    contact_groups                  admins
    event_handler                   restart-dependent-processes
    check_command                   check_procs_duplicate!2!3!2!2!2

}

check_procs_duplicate verifica se há algum processo duplicado e retorna o estado - por exemplo, CRÍTICO.

O manipulador de eventos mata os processos duplicados e seus processos dependentes e inicia uma instância do processo e processo dependente. No final disso, o Nagios verifica se há algum processo duplicado e define o estado de acordo - OK / WARNING / CRITICAL.

O manipulador de eventos leva mais tempo para iniciar os processos e, durante esse tempo, se alguém iniciar manualmente o processo, o estado permanecerá em CRITICAL em si.

Durante o próximo intervalo, o Nagios irá verificar novamente por processos duplicados e ele irá encontrá-lo novamente CRITICAL.

O manipulador de eventos não será executado agora, pois os previos e atuais ambos os estados são CRÍTICOS.

Alguma indicação sobre como corrigir esse problema?

    
por Dattatray 07.09.2012 / 07:58

1 resposta

2

Você pode querer considerar torná-lo um serviço volátil. Consulte a página de documentos em Serviços voláteis .

O que você está lidando não é estritamente um serviço volátil, mas um check_interval de 1 e max_check_attempts de 1 é quase a mesma coisa.

Se você tornar o serviço volátil, ele deverá executar efetivamente o manipulador de eventos sempre que for CRITICAL, não apenas quando o estado "mudar".

    
por 07.09.2012 / 22:38

Tags