Atrasando notificações do munin

5

Eu tenho alguns servidores que são monitorados pelo munin e, com bastante frequência, um de uma seleção de unidades tem uma falha transitória para ler os dados. Isso me pega dois e-mails, um me dizendo que todos os valores são desconhecidos e os segundos cinco minutos depois me informando que está tudo bem, afinal.

Até onde sei, o munin está funcionando como foi projetado aqui, mas gostaria de saber se existe alguma maneira de atrasar o envio do alerta inicial 'desconhecido' para um ciclo de atualização, de modo que incógnitas transitórias não são relatadas? Toda a minha configuração atual está me treinando para ignorar as mensagens de aviso.

Se isso falhar, existe alguma maneira de desativar o envio de alertas "desconhecidos" e seus alertas de recuperação correspondentes?

    
por Andrew Aylett 29.12.2013 / 23:41

3 respostas

5

Eu realmente não uso Munin, mas como eu vejo uma configuração unknown_limit pode ser definida para itens / plugins que define quantas leituras consecutivas mal sucedidas devem ocorrer antes de definir um valor como "desconhecido".

Com base no módulo Munin :: LimitsOld, o padrão é 3, acho que você deve tentar definir ou aumentar esse número.

Eu verifiquei isso no Munin 1.4.5.

    
por 20.03.2014 / 13:07
1

Consegui isso tendo munin notificando, não diretamente aos usuários finais, mas ao NAGIOS via NSCA, e tendo o NAGIOS lidando com as notificações. Isso significa que posso usar os controles (muito mais sofisticados) de NAGIOS no atraso, frequência, escalonamentos e assim por diante. Sim, o NAGIOS é bastante pesado apenas para ser um mecanismo de notificação, mas você pode usá-lo para monitoramento qualitativo (em vez de quantitativo) também.

    
por 20.03.2014 / 12:47
1

Lembre-se de que um dos grandes benefícios do uso de ferramentas de software livre é que você pode examinar a origem para ver exatamente o que eles fazem (e mudar o comportamento se você não gostar). Uma rápida varredura de LimitsOld.pm mostra que a sugestão de Gábor é a abordagem correta - o unknown_limit pode ser definido por serviço ou globalmente e apareceu ao redor do Munin 1.4.4 (veja link ).

    
por 21.03.2014 / 19:45

Tags