Configurando as configurações de notificação do nagios para ser muito frequente

4

Eu configurei um cluster do Proxmox VE com três nós. Cada nó tem um número de VMs em execução. Estou usando o PVE Monitor Plugin para configurar os hosts e serviços, o que funciona bem.

Meu problema é que o comportamento de envio de e-mail do Nagios é algo estranho. Idealmente, eu gostaria de ter uma verificação uma vez por minuto, tanto para os nós como para todos os serviços que estão sendo executados em cada nó.

Meu arquivo de configuração é assim:

# Define the cluster itself as a host
# the command check_pve_cluster_nodes give us info
# on the member's cluster state
define host {
        host_name pve-cluster
        max_check_attempts 10
        check_command check_pve_cluster_nodes
    contact_groups admins
    check_interval 1
    contact_groups admins
    notifications_enabled 1
}

# define openvz, qemu and storages as services of the cluster
define service{
        use generic-service
        host_name pve-cluster
        service_description OpenVZ VMs
        check_command check_pve_cluster_openvz
    check_interval 1
    contact_groups admins
    notifications_enabled 1
}


define service{
        use generic-service
        host_name pve-cluster
        service_description Qemu VMs
        check_command check_pve_cluster_qemu
    check_interval 1
    contact_groups admins
    notifications_enabled 1
}


define service{
        use generic-service
        host_name pve-cluster
        service_description Storages
        check_command check_pve_cluster_storage
    check_interval 1
    contact_groups admins
    notifications_enabled 1
}

Eu não alterei as configurações da unidade de tempo, então elas devem ser verificadas uma vez por minuto. A interface da Web do Nagios Web está mostrando que um host está off-line, mas as notificações de e-mail são enviadas apenas alguns minutos depois. Além disso, o conteúdo de e-mail está faltando a parte mais importante da informação - qual nó / serviço está exatamente no estado crítico:

Node para baixo

***** Nagios *****

Notification Type: PROBLEM
Host: pve-cluster
State: DOWN
Address: pve-cluster
Info: NODES CRITICAL  2 / 3 working nodes

Date/Time: Fri Mar 6 10:48:25 CET 2015

VM inoperante

***** Nagios *****

Notification Type: PROBLEM

Service: Qemu VMs
Host: pve-cluster
Address: pve-cluster
State: CRITICAL

Date/Time: Fri Mar 6 10:40:44 CET 2015

Additional Info:

QEMU CRITICAL 2 / 3 working VMs

Como posso configurar a configuração para que hosts e serviços (por exemplo, VMs) sejam verificados em um intervalo de um minuto? O ideal é que as verificações novamente para esse status sejam enviadas em intervalos de 15 minutos depois disso.

Isso é mesmo o melhor fluxo de trabalho? Ou existe outra maneira melhor de agendar notificações com reconhecimento?

    
por doque 06.03.2015 / 10:56

1 resposta

3

O Nagios só envia e-mails quando um host ou serviço entrou em um estado 'difícil'. Em um nível básico para responder a sua pergunta - um estado difícil é atingido uma vez que o host ou serviço tenha sido verificado um número de vezes especificado por max_check_attempts . Por padrão, isso é 4.

Informações sobre estados de software / hardware: link Informações sobre max_check_attempts: link

Parece que o plugin está definitivamente pretendendo dar detalhes de retorno, mas por alguma razão não é. Infelizmente eu não tenho o ambiente para testar isso, então eu posso ter que deixar você com essa parte da questão.

Seções relevantes do perl:

print "NODES $rstatus{$statusScore}  $workingNodes / " .
          scalar(@monitoredNodes) . " working nodes" . $br . $reportSummary;

print "STORAGE $rstatus{$statusScore} $workingStorages / " .
          scalar(@monitoredStorages) . " working storages" . $br . $reportSummary;

print "OPENVZ $rstatus{$statusScore} $workingVms / " .
          scalar(@monitoredOpenvz) . " working VMs" . $br . $reportSummary;

print "QEMU $rstatus{$statusScore} $workingVms / " .
          scalar(@monitoredQemus) . " working VMs" . $br .
          $reportSummary;

$ reportSummary é preenchido com detalhes das seções de problemas mais altas no código, mas não parecem estar sendo retornadas para você.

    
por 06.03.2015 / 11:11