Ferramentas de monitoramento de rede com recursos da API [closed]

4

Usamos o pacote Advanced Hostmonitor do ks-soft para monitorar cerca de 2000 itens em nossa rede. Nós achamos que é ótimo, o cara que o suporta é fantástico, o produto é rápido, estável e maduro, mas eu sinto que à medida que crescemos como empresa, ele está começando a mostrar alguns pontos de fricção na área de integração com nossos sistemas administrativos de back office.

Uma das coisas que gostaríamos de fazer é adicionar novos testes a qualquer ferramenta de monitoramento que utilizássemos por meio de uma API. Por exemplo, quando os pedidos de servidores vêm de nossa interface de varejo, o servidor é construído automaticamente e, como parte do processo de criação automatizado, gostaríamos de adicionar automaticamente novos testes aos sistemas de monitoramento de rede.

O Hostmonitor tem algum suporte para isso através de um recurso chamado HM Script, mas estamos começando a encontrar alguns speedbumps -

  1. não podemos adicionar novos operadores / usuários
  2. não podemos definir novos "Perfis de ação" - essas são as ações a serem tomadas quando um teste é bom ou ruim.

O que mais gostamos em hostmonitor, são os perfis de ação. Por exemplo, se uma caixa do Windows IIS ficar ruim, nosso perfil de ação para um teste ruim fará algo como:

  • Verifique novamente o host (uma vez)
  • Aguarde mais 30 segundos e teste novamente
  • Tente reiniciar o pool de aplicativos na máquina remota (até duas vezes)
  • Envie um email para ops sobre a falha de reinicialização
  • Tente reiniciar o IIS na máquina remota (até quatro vezes)
  • Page duty admin (até 5 vezes - pára após o administrador de tarefas ACKS alerta)
  • Administrador de tarefas de backup de páginas (5 vezes - pára após o administrador de tarefas ACKS alerta)

Estou começando a pesquisar outras ferramentas de monitoramento de rede e estou procurando:

  1. uma API abrangente para poder adicionar / remover / controlar testes / testar "perfis de ação" / operadores (não apenas plugins, precisamos de interfaces de controle e administrativas)
  2. a capacidade de ter perfis de ação / escalação bastante detalhados (e defini-los por meio de uma API)

Eu olhei para Nagios e Icinga, mas não consigo ver a documentação deles, se podíamos ter esses recursos ou não, ou, se pudéssemos, quanto trabalho estaria envolvido para implementar / personalizar.

Alguém pode fornecer algum conselho, orientação ou experiências?

    
por Kev 13.03.2011 / 18:58

4 respostas

1

Icinga faz o trabalho muito bem (eu prefiro ao Nagios porque ele tem uma única API que você pode usar para obter dados e é 100% compatível com os plug-ins do Nagios).

Existe um vídeo sobre o Nagios VS Icinga que o descreve muito bem: Youtube (é da Icinga, então , abordagem com cautela)

Você pode usar o Icinga para enviar por email / sms alguém e até mesmo executar um script (e, assim, reiniciar um serviço, reinicializar, ...) Exemplo: Link (É um nagios-link, mas é o mesmo negócio).
A única coisa de que não tenho certeza é executar os comandos em uma ordem cronológica.

Para facilitar a configuração, usamos NConf . Ele oferece uma API para hosts, serviços, ... (não para gerenciamento de usuários).

    
por 14.03.2011 / 01:43
1

Dependendo do seu ambiente, você pode querer analisar uma solução que nem sequer usa probes e, em vez disso, apenas analisa o tráfego e, em seguida, configura alertas com base em informações como erros de nível 500 ou tráfego durante um período sustentado de tempo. Por exemplo, dê uma olhada no que o ExtraHop oferece: link

    
por 23.03.2011 / 01:04
1

Se você estiver procurando monitoramento externo, talvez queira dar uma olhada no WatchMouse. Sua API fornece as funções que você mencionou (se eu entendi que você está correto): apidoc.watchmouse.com

Felicidades Mark

    
por 24.03.2011 / 21:07
1

Opsview tem uma API: link

    
por 08.06.2011 / 19:05