Que configuração de alertas pode fornecer uma visão geral dos estados de alerta do Prometheus?

Question

Que configuração de alertas pode fornecer uma visão geral dos estados de alerta do Prometheus?

#1 resposta do (2 votos)

2

Estou usando o prometheus e o alertmanager para postar mensagens quando os alertas são disparados. Ambos são auto-hospedados em Kube. As preocupações de PII me impedem de usar uma solução de instrumentação gerenciada.

Estou à procura de opções que permitam ver rapidamente o estado atual de todos os alertas. No momento, uma falha no sistema pode disparar de 1 a 20 alertas, manifestando-se como mensagens de 1-40 (um para alerta alto, alerta baixo) e é barulhento o suficiente para que eu possa perder coisas.

Minha preferência seria uma ferramenta que publicasse uma mensagem de atraso a cada dez minutos e continuasse a editá-la como alterações de status.

Eu experimentei painéis do Grafana, mas descobri que não é prático, porque é raro que alguém o verifique proativamente.

Como vocês observam com eficiência a saúde dos estados de seus sistemas?

monitoring prometheus

por Plato 10.09.2018 / 22:16

1 resposta

Tags monitoring prometheus

Localiza e substitui string entre dois delimitadores Qual é a melhor prática para integridade e autenticidade de logs?

score 2 · Accepted Answer

Sem especificar o prometheus, um bom sistema de monitoramento informa a você as duas formas: ele diz o que acredita que você precisa saber e permite que você encontre o que deseja saber com rapidez e eficiência quanto possível.

A minha preferência pessoal é NAGIOS, porque o final do alerta é bastante sofisticado (vários canais de alerta, períodos de blackout, reconhecimentos e escalações, etc.) e também porque tem algumas visualizações sinópticas muito agradáveis que me permitem captar a rede saúde de relance.

Meus favoritos pessoais para este último são (a) o mapa de rede no modo "balão circular", que me permite ver rapidamente a saúde de cerca de cem nós executando quase mil verificações de serviço e (b) o " problemas de serviço não tratados "view, que me fornece uma lista detalhada de tudo que atualmente não está bem na minha rede.

Mas qualquer ferramenta que faça as coisas efetivamente (informa e lhe dá sinopses) deve ajudar. Experimente alguns, até encontrar um que funcione para você.