Como Ig sugere Nagios pode ser parte da solução.
Fora da caixa, ele fará muitas coisas, como medir CPU, portas abertas, sistema respondendo a pings. Mas o importante é que se trata de uma ferramenta de agendamento e relatório - a qual é trivial adicionar novos programas que realmente medem as métricas do sistema. Existem muitos outros produtos para fazer coisas como esta, mas o Nagios é um dos melhores produtos gratuitos (melhor do que muitas das ofertas comerciais). E se você olhar para as ofertas comerciais, passará semanas revendo toda a estratégia de marketing e aproveitará a funcionalidade antes de descobrir se é possível integrar suas próprias métricas, sem falar em como fazê-lo. Certamente, tanto o BMC Patrol (nova versão) quanto o Grid Control da Oracle podem suportar isso - mas exigem muito mais esforço.
Se você quiser testar a funcionalidade de ponta a ponta, tudo que precisa fazer é configurar um trabalho agendado para enviar um email pelo sistema (no Nagios ou com um agendador convencional), digamos, a cada 5 minutos, em seguida, configure uma verificação no Nagios para verificar periodicamente o e-mail mais recente que sai do sistema - se não houver um novo e-mail (ou o e-mail mais recente tiver mais de 6 minutos), o script retornará um status de erro.
Esse tipo de script é trivial para configurar em um sistema Unix, mas pode ser mais difícil (e muito mais caro) em caixas MSWindows - a menos que você tenha uma strong aversão ao Unix, eu recomendaria ativar o Linux ou BSD em um PC de reposição para executar o Nagios e as sondas - mas o Nagios está disponível para o MS Windows.
Parece que seu roteiro está fazendo todo o trabalho pesado? Na verdade, o Nagios gerenciará escalações, poderá ser configurado para enviar alertas para pessoas diferentes dependendo da hora do dia, acionar ações automáticas no caso de um alerta (por exemplo, reinicializar um servidor) e fornecer muitas informações sobre por que o serviço pode estar falhando (por exemplo, disco cheio no servidor de e-mail) e muitas outras coisas ... aproveitam as habilidades existentes para integrar estratégias de resolução de problemas?
C.