As métricas que você cita são restrições de desempenho - você não está medindo o desempenho do servidor - apesar de ter dito isso, há muito poucos plug-ins Nagios disponíveis no mercado para monitoramento de desempenho.
Eu sugeriria o Nagios como a ferramenta para medir e relatar problemas de desempenho - mas você diz que já o instalou, mas "é impraticável abrir o topo do console SSH para cada servidor". - isso não faz muito sentido para mim - o Nagios é especificamente projetado para fazer isso por você! Dê uma olhada em NRPE para obter detalhes sobre como gerenciar o monitoramento de um servidor central.
"Problema de espaço em disco" - nos plug-ins nagios padrão
"Resource Hog" - é uma métrica sem sentido. Você pode obter o uso atual e cumulativo de CPU e memória, # arquivos abertos e outras estatísticas por processo do sistema de arquivos / proc - envolvendo-os em um script para criar um nagios plugin é trivial . Para medir E / S de disco por processo, isso sempre foi um problema nos kernels 2.4 e 2.6 anteriores - mas eu entendo que agora é possível em kernels mais recentes - veja iotop para uma implementação em Python.
"Falha na tentativa de login root / sudo". Como eu já disse muitas vezes no passado, a maioria dos itens de segurança gravados nos registros informam onde a segurança está funcionando corretamente - ou seja, a maioria não tem interesse. As coisas importantes são onde sua segurança está comprometida. O que você deve observar é o acesso root bem-sucedido. O Nagios tem plugins para o monitoramento de logs .
"Qualquer outra coisa" - bem, sim, monitoramento de desempenho. Existem ferramentas para injetar transações em vários serviços disponíveis como plugins para o Nagios, pouco sem saber quais serviços você precisa medir para ser mais específico.