Para controle distribuído de processos, posso recomendar o MCollective , que é uma ótima ferramenta de código aberto para executar comandos em qualquer número de sistemas baseados em vários metadados em tempo real.
The Marionette Collective AKA MCollective is a framework to build
server orchestration or parallel job execution systems.
Primarily we’ll use it as a means of programmatic execution of Systems
Administration actions on clusters of servers. In this regard we
operate in the same space as tools like Func, Fabric or Capistrano.
We’ve attempted to think out of the box a bit designing this system by
not relying on central inventories and tools like SSH, we’re not
simply a fancy SSH “for loop.” MCollective use modern tools like
Publish Subscribe Middleware and modern philosophies like real time
discovery of network resources using meta data and not hostnames.
Delivering a very scalable and very fast parallel execution
environment.
Não estou ciente de um sistema de monitoramento que tenha essa funcionalidade integrada. Talvez você possa integrá-lo com manipuladores de exceção do Nagios.