Existe um bom monitoramento, ferramenta de alerta com sistema de tickets de problemas + desduplicação e supressão inteligente de alertas?

2

Sou usuário do nagios há muito tempo.

Ultimamente, como o tamanho da nossa frota de servidores cresceu, o mesmo aconteceu com o número de alertas do nagios. A relação sinal-ruído tornou-se muito baixa. por exemplo. Quando um serviço comum falha - todo o meu servidor da Web com carga balanceada que usa esse serviço & Portanto, verifique se ele começa a alertar. Isso misturado com alertas de sistema possíveis daquele serviço que aparece em ordem diferente leva a muito barulho.

Eu posso gastar muito tempo & garantir que minhas configurações de nagios sejam boas, mas está se tornando cada vez mais incontrolável. Eu estou procurando uma ferramenta (ou plugin nagios) que faz de-duplicação & supressão inteligente de alertas. Além disso, eu gostaria que os "problemas" / interrupções fossem rastreados em um sistema de emissão de problemas - de modo que houvesse um lugar para qualquer um ter uma boa noção do que está acontecendo com um problema. E também veja o arquivo.

Sim, eu posso fazer isso de alguma forma no Nagios - mas não é ótimo.

Enquanto procurava, encontrei várias ferramentas ( link ), mas ninguém parece estar falando de problemas como deduplicação, acompanhamento de problemas & gestão

    
por Mekin Maheshwari 07.10.2010 / 07:26

2 respostas

1

Eu diria que sua melhor aposta é o OpenNMS com integração RT ou OTRS. Ao contrário do Nagios, é uma solução de gerenciamento SNMP completa com um foco FCAPS (falha / configuração / contabilidade / desempenho / gerenciamento de segurança). O quão bem ele aborda cada uma dessas categorias é até o implementador. É uma ótima solução para pessoas que estão procurando "atualizar" do Nagios e ter um servidor Cacti sentado fazendo coisas semelhantes. A integração dos dados de desempenho e falhas é absolutamente indispensável. A documentação está um pouco atrás do estado atual do produto, mas eu tenho trabalhado pessoalmente nisso ultimamente.

Se você quiser experimentá-lo, siga em frente e siga as instruções de início rápido no wiki opennms.org, mas pare em "discovery" e dê uma olhada no novo recurso provisiond whitepaper . É uma ótima ferramenta de migração também.

O sistema baseado em eventos fornece disparadores de alarmes para um painel de alarme e notificações para ... notificações. Estas podem ser chamadas telefônicas via asterisco, páginas, email, twitter, etc. Quando você ou a equipe de atendimento são notificados, você pode responder ao email com o trabalho "ack" e ter a notificação confirmada e seu ticket atualizado com os horários de início , etc.

A separação de notificações e alarmes é um ótimo recurso para sua solicitação de deduplicação. Dependendo do que está acontecendo, você pode reduzir esses alarmes por meio de uma tecla de redução e só será notificado no limite (mas ainda assim acionará todo o alarme para que você tenha os dados). Há alguns recursos avançados de correlação, mas eu realmente não me dediquei a isso.

    
por 07.10.2010 / 11:30
2

Eu acho que a primeira coisa que eu sugiro é olhar para as dependências. Quando o serviço comum falha, os servidores da Web que usam esse serviço comum podem ser definidos como dependências para que você receba apenas o alerta para o serviço comum. Se um dos servidores da Web falhar e o serviço comum ainda estiver respondendo, você receberá a mensagem do servidor da Web.

Normalmente você configura o Nagios para que todas as máquinas atrás de um switch ou de um determinado disjuntor tenham uma dependência. Quando esse comutador falha, não há necessidade de alertá-lo de que todas as 38 máquinas nesse rack também estão inoperantes.

Se você tiver o flap, poderá alterar ligeiramente o escalonamento para que suas métricas de serviço ainda sejam mantidas, mas não será paginado com tanta frequência quando um serviço for interrompido. A detecção de flaps do Nagios não faz um trabalho excelente, mas não faz muito mal.

Quanto à emissão de bilhetes, você pode escrever um script de notificação de eventos que importe automaticamente para um sistema de emissão de problemas (os clientes obtêm alguns dados exportados para seus registros), mas não pesquisei a integração em sistemas existentes.

    
por 07.10.2010 / 07:59