Como o MarkM, eu recomendaria o Nagios - mas acho que você precisa planejar o que você está medindo com mais cuidado. Espero que com 4 nós equeivalentes haja 12 conexões envolvidas (ab, ac, ad, ba, bc, bd, ca, cb, cd, da, bd, dc) a menos que algumas das conexões sejam bidirecionais (?) .
É bem possível usar o Nagios para definir verificações ativas a serem executadas em intervalos ou para ter o daemon aguardando para receber uma notificação de status (neste caso, uma comunicação com falha do servidor inicial) e até mesmo para disparar algum tratamento automático de resposta (como reiniciar um processo de servidor da Web danificado). Mas você precisa pensar em como você lida com cenários de cérebro dividido.
Você pode executar o daemon do Nagios em um servidor dedicado, ou em um, ou qualquer número de nós no cluster - mas cuidado ao iniciar respostas automáticas de vários nós de monitoramento simultaneamente.
C.