No passado, eu usava o Ganglia para disponibilidade de nós e monitoramento de carga. Não lhe dirá quais trabalhos estão sendo executados, mas mostrará a integridade de seu cluster.
Nagios é outra coisa que eu usei com meus clusters, no entanto, é um pouco mais do que apenas o monitoramento de cluster. Ele pode monitorar processos, espaço em disco, memória e qualquer coisa que você possa criar scripts ou encontrar um script. Isso também é baseado na web.Quanto aos job schedulers, há algumas opções dependendo de como você gostaria de configurar as coisas. As opções incluem, mas não estão limitadas a: OpenPBS, TORQUE, PBSPro, Agendador de Clusters Maui, SLURM, Sun Grid Engine. Estes são todos os que eu sei que os centros estão usando atualmente para agendamento de HPC. A Wikipédia tem uma lista, mas eu não acredito que todos os que estão listados sejam para agendamento de HPC. link
Sites:
Ganglia link
Nagios link