Você tem um uso criativo para nagios?

7

Estou à procura de inspirações em usos não padronizados de sistemas de monitoramento, como o nagios, que normalmente é usado para verificar se o HTTP está respondendo etc. Estou curioso sobre como as pessoas adotaram o framework nagios simples e o utilizaram de maneiras inesperadas. então eu posso roubar emprestá-los.

    
por jldugger 24.08.2010 / 21:28

13 respostas

4

Eu uso nagios para monitorar um cluster Linux de computação de alto desempenho de 1100 nós. O Nagios é usado para verificar o processo sshd, o status SMART do disco rígido, o status da rede Infiniband, o sistema de arquivos compartilhado e o uso do disco. Se algum desses testes falhar, o nó será automaticamente retirado do conjunto de produção do planejador de tarefa para que possa ser reparado. Até agora, isso funcionou razoavelmente bem. Antes de o Nagios ser implementado no cluster, tivemos muitas reclamações de que os programas não seriam inicializados ou que eles iriam falhar imediatamente. Depois que foi implementado, quase não nos queixamos.

Eu também uso o Nagios para monitorar algumas instâncias do Xen dom-U. Se uma VM dom-U travasse, o Nagios reinicializaria automaticamente a VM.

    
por 24.08.2010 / 22:03
4

Eu costumava armazenar uma cópia dos meus amigos do Facebook e da lista de seguidores do Twitter, e enviar alertas do Nagios se eu não fosse amigo / não seguisse.

    
por 25.07.2011 / 23:28
3

não é meu, mas este é o uso mais criativo de nagios que eu já ouvi falar . Tiremos o chapéu para esse cara!

    
por 23.10.2010 / 19:42
2

O que exatamente você quer dizer? Eu escrevi alguns scripts que monitoram coisas diferentes além do HTTP. Eu até criei um "URL Content" tipo de monitor (um muito básico em que), que apenas verifica para um determinado pedaço de texto, e, em seguida, se ele relata menos de 1 (0) instâncias do texto, ele relata como "para baixo", e se mais de 1, informa como up.

Escrever scripts nagios pode ser feito com praticamente qualquer idioma.

    
por 24.08.2010 / 21:32
2

Eu coleciono dados de desempenho em dados rrd. Então eu fiz algumas verificações para ler vários pontos de dados de verificações recentes e procurar por mudanças nas tendências - esses scripts podem ser úteis. É basicamente uma maneira automatizada de ler gráficos.

    
por 24.08.2010 / 21:42
2

Talvez outra coisa em que as pessoas possam se interessar:

Eu faço backups com dirvish de toda a infraestrutura aqui. Depois que o backup do dirvish terminar, eu verifico os resultados do backup com um pequeno script e envio os resultados da máquina de backup para a máquina nagios.

No servidor nagios, uma verificação passiva para isso é definida. O talvez interessante aqui: defini freshness_threshold com 93600 (= 26h) e check_command com check_dummy_args!2!'Last backup cycle too long ago' (e, claro, check_freshness com 1). Dessa forma, eu recebo notificação automática se um backup demorar muito ou não for executado sem polling.

    
por 24.08.2010 / 22:00
2

Além de todas as coisas comuns e chatas tenho um monitor para verificar se é o dia do SysAdm, que envia e alerta para todos os meus usuários.

Eu também tenho planos para implementar um alerta sonoro no festival para falhas realmente perigosas, e planeja monitorar a presença do chefe nos headqarters. Mas eles não gostam de me pagar por brincadeiras de implementação

    
por 16.09.2010 / 08:19
1

Para dar o pontapé de saída, um exemplo de que ouvi falar é um cara que instalou verificações nagios para monitorar seu fórum por atividade insalubre, como grandes números de tópicos não respondidos e tempo médio entre as postagens.

    
por 24.08.2010 / 21:29
1

Aqui eu tenho um SMS-Gateway usando alguns modems USB. Naturalmente, monitorei os modems e o próprio gateway. Como todos os nossos cartões SIM utilizados têm um contingente de 1000 SMS gratuitos por mês, monitorei a quantidade de SMS já enviados através da interface normal da Web do operador de rede móvel (pequeno perl skript com WWW :: Mechanize). Se um SIM não tiver mais SMS grátis para enviar, ele será desativado pelo nagios - se a interface web do operador da rede móvel informar o nagios, haverá novamente 1000 SMS gratuitos para enviar, o modem será ativado novamente. Em conjunto com nagios-grapher eu tenho boas estatísticas também ...

    
por 24.08.2010 / 21:44
1

Tenho inúmeros serviços passivos apenas para o status de atualização de arquivos e um serviço ativo para gerar um relatório de status do arquivo. O serviço ativo executa um script que executa um relatório e transfere os resultados para o arquivo de comando. Dessa forma, recebo uma notificação se (1) o relatório não foi executado e (2) recebo um resultado dividido de todos os arquivos que ele executou consultas contra. A verificação é executada uma vez a cada 5 minutos e os status dos arquivos são atualizados uma vez a cada 5 minutos. Funciona muito bem.

Eu uso esse mesmo conceito na determinação de arquivos para extrair de fontes externas (http, ftp, etc.). Coloque um script com o intervalo de repetição necessário no NAGIOS que atravessa diretórios em recursos remotos procurando por arquivos que precisamos extrair. Se não encontrar nada, avise, se encontrar alguma coisa, saia em OK e faça o trabalho para colocar o pedido pull em nossa fila.

E além de tudo isso, eu também tenho numerosos "quantos anos tem este arquivo" ou "quantos anos tem este diretório" verifica que são burros, e eu os detesto muito.

    
por 16.09.2010 / 06:11
1
por 03.10.2010 / 00:39
1

Tivemos tanto o Nagios quanto o Solarwinds como nossos principais sistemas de monitoramento no último lugar em que eu era um cara do NOC. O Solarwinds era ótimo para monitorar os sistemas Windows, mas era meio esquisito, então fizemos um monte de monitoramento entre os dois sistemas para fazê-los monitorar uns aos outros. Muitos scripts python executando consultas SQL no banco de dados Solarwinds para garantir que ele não contenha dados obsoletos.

Você também pode explorar um "script de verificação" do Nagios para acionar uma atualização de software em uma máquina para ter certeza de usar a versão atual do que você quer em intervalos regulares.

Em nossos servidores NFS, não havia um conjunto específico de montagens permanentemente "correto", portanto, os scripts de verificação do servidor de arquivos eram configurados para emitir sempre um alerta sempre que a lista de sistemas de arquivos exportados fosse alterada. Dessa forma, os caras que executam essas máquinas sempre são notificados quando algo é adicionado ou removido. Se eles estivessem trabalhando na máquina naquele momento, eles ignorariam o alerta. Se não fossem, eles iriam consertar. O conceito "alerta em delta" em vez de "alerta em estado" ajudou a reduzir parte de nossa sobrecarga de comunicações para esse tipo de coisa.

Tínhamos macacos NOC 24 horas para assistir a tudo, então também tínhamos uma mensagem periódica de "email está funcionando" que eles conseguiam de acordo com o cronograma, e eles entrariam em pânico se nenhum dos monitoramentos automáticos percebesse que o email estava quebrado. Esse tipo de coisa é fácil de configurar como um "script de verificação", mesmo que um valor de retorno OK do script não lhe diga com certeza que está tudo bem. Se você não tiver os corpos sobressalentes para verificar isso manualmente, também poderá ter um script de verificação "enviar e-mail" e um script de verificação "verificar e-mail" que funcionam em uníssono, com o script de verificação de e-mail alertando sobre altas latências de entrega. Não é uma garantia tão completa que o sistema esteja trabalhando de ponta a ponta como se alguém estivesse realmente lendo em seu Blackberry e Outlook, mas isso cobre a maioria dos possíveis problemas.

Muitas coisas do Nagios são realmente específicas do tipo "veja uma coceira, coça uma coceira". Você só precisa ser um sonhador prático.

    
por 23.10.2010 / 20:39
0

Eu poderia tentar escrever um cheque nagio para raspar o núcleo do exército de engenheiros dados para a barragem local e alertar sobre isso. Especialmente importante agora que moro perto da planície de inundação.

    
por 25.07.2011 / 22:58