Como lidei com relatórios de post-mortems / incidentes com o Nagios?

4

Acabei de usar o Nagios e gosto que minha equipe reconheça os problemas, mas ainda não encontrei uma maneira de registrar as soluções usadas para corrigir os problemas. Existe uma ferramenta que registre os alertas do Nagios e forneça uma maneira de completar as soluções post-mortem e de log de modo que, quando alguém encontrar problemas semelhantes, possa referenciar os dados registrados?

    
por GregB 22.08.2011 / 07:37

3 respostas

3

Honestamente, não acho que tentar capturar essa informação em tempo de falha é útil. Você está estressado, possivelmente ainda com sono, pelo menos você estará em um modo de "luta ou fuga" que não é propício para escrever uma boa documentação. O Nagios já tem a capacidade de gravar notas rápidas no serviço (como parte do ack, ou como uma nota separada que você anexa ao serviço / host); estes poderiam ser usados como parte do post-mortem que você deveria estar fazendo a lazer após a emergência, e então incorporados em uma documentação mais estruturada, útil e melhor escrita que é capturada em um wiki e vinculada ao próprio serviço. no Nagios (através do campo notes_url ).

    
por 22.08.2011 / 08:16
2

Dê uma olhada nos manipuladores de eventos . Tudo o que você precisa fazer é escrever um script para lidar com eventos e registrar sua solução em um sistema de rastreamento de problemas (eu gosto de Redmine ).

    
por 22.08.2011 / 07:45
0

Onde eu trabalho, fazemos o contrário.

Nós usamos um sistema de tickets chamado 'TopDesk' (não importa realmente). Sempre que houver um alerta em Icinga (nagios-fork), isso cria um ticket por meio de uma solicitação HTTP para o servidor TopDesk.

Por isso, é mais fácil deixar que os nagios enviem avisos / erros via e-mail, sms e um sistema de tickets, usando-os para acompanhar as ações tomadas.

    
por 23.08.2011 / 01:05