Tivemos tanto o Nagios quanto o Solarwinds como nossos principais sistemas de monitoramento no último lugar em que eu era um cara do NOC. O Solarwinds era ótimo para monitorar os sistemas Windows, mas era meio esquisito, então fizemos um monte de monitoramento entre os dois sistemas para fazê-los monitorar uns aos outros. Muitos scripts python executando consultas SQL no banco de dados Solarwinds para garantir que ele não contenha dados obsoletos.
Você também pode explorar um "script de verificação" do Nagios para acionar uma atualização de software em uma máquina para ter certeza de usar a versão atual do que você quer em intervalos regulares.
Em nossos servidores NFS, não havia um conjunto específico de montagens permanentemente "correto", portanto, os scripts de verificação do servidor de arquivos eram configurados para emitir sempre um alerta sempre que a lista de sistemas de arquivos exportados fosse alterada. Dessa forma, os caras que executam essas máquinas sempre são notificados quando algo é adicionado ou removido. Se eles estivessem trabalhando na máquina naquele momento, eles ignorariam o alerta. Se não fossem, eles iriam consertar. O conceito "alerta em delta" em vez de "alerta em estado" ajudou a reduzir parte de nossa sobrecarga de comunicações para esse tipo de coisa.
Tínhamos macacos NOC 24 horas para assistir a tudo, então também tínhamos uma mensagem periódica de "email está funcionando" que eles conseguiam de acordo com o cronograma, e eles entrariam em pânico se nenhum dos monitoramentos automáticos percebesse que o email estava quebrado. Esse tipo de coisa é fácil de configurar como um "script de verificação", mesmo que um valor de retorno OK do script não lhe diga com certeza que está tudo bem. Se você não tiver os corpos sobressalentes para verificar isso manualmente, também poderá ter um script de verificação "enviar e-mail" e um script de verificação "verificar e-mail" que funcionam em uníssono, com o script de verificação de e-mail alertando sobre altas latências de entrega. Não é uma garantia tão completa que o sistema esteja trabalhando de ponta a ponta como se alguém estivesse realmente lendo em seu Blackberry e Outlook, mas isso cobre a maioria dos possíveis problemas.
Muitas coisas do Nagios são realmente específicas do tipo "veja uma coceira, coça uma coceira". Você só precisa ser um sonhador prático.