Check_MK: Como faço para criar notificações com base em grupos de serviços em vez de apenas um serviço?

2

Gostaria de poder criar uma notificação que alerta com base na disponibilidade de um grupo de serviços, em vez de apenas um limite. Por exemplo, digamos que eu tenha 10 servidores AWS que fazem a mesma coisa, e espero que alguns deles sejam sobrecarregados / falhem às vezes sem prejudicar o aplicativo: Eu quero que o Check_MK me avise se 3 de 10 dos servidores (ou superior ) falhar em um determinado serviço. Se um falhar, não me avise. Outro exemplo, talvez mais simples: digamos que você tenha um ponto de montagem do NFS em 20 servidores, do mesmo servidor NFS. Eu não quero receber 20 avisos ou críticas quando eu posso apenas pegar um.

Os exemplos acima em meu ambiente já estão agrupados em grupos de serviços.

Eu tentei três mecanismos diferentes no Check_MK 1.2.6p16:

  1. Usando o Business Intelligence. O agrupamento e configuração de aviso foi fantástico, fez o que eu queria! Mas as Regras de Notificação não permitem nada relacionado aos componentes de BI do produto!

  2. Cluster - Eu configurei um cluster para os servidores da AWS, mas como algumas das minhas verificações (principalmente a verificação ativa de HTTP) exigem um nome de host, isso não ajudará. Eu não acho que Cluster é o rabbithole certo para ir até aqui, mas me corrija se eu estiver errado. Eu abandonei olhar para isso.

  3. Alerta de grupo de serviço - o objetivo desta pergunta original. Não há nada na lógica Notificações que me permita alertar sobre a disponibilidade do grupo de serviços.

Alguém conseguiu isso com o Check_MK?

    
por Emmel 09.06.2016 / 20:17

1 resposta

0

o exemplo do NFS será complicado porque não há como as dependências de serviço entre hosts serem gerenciadas automaticamente. Você precisará de uma solução alternativa lá. Você pode monitorar os serviços de exportação e nfs corretamente (há uma verificação de nfsexports, e você também pode tentar verificar se conecta com rpcinfo) Isso deixará uma lacuna se, por exemplo, um firewall falhar, mas se você monitorar bem o nfs, concentre-se no servidor.

1) O BI não alerta diretamente, há um check_bi_aggr no qual você precisa criar os alertas. (Usando os nomes de serviço que ele irá gerar). Assim, as regras de notificação precisam ser configuradas para esta. Ele deve alertar rapidamente se você acertar a marca 3/10.

As notificações para os serviços individuais devem ser modificadas. ou seja, você os configura para não notificar por longos períodos. isto é, através de um atraso de notificação.

2) mais inútil para isso, vai ficar contente até o último falhar

3) é basicamente uma limitação do Nagios, esqueça este aqui.

    
por 27.06.2016 / 23:11