O que você pede é o cluster esgrima sem hardware.
Esgrima é um mecanismo que evita a inconsistência do cluster matando (geralmente usando o power off) o membro que não podemos dizer sobre seu estado com certeza. Isso geralmente é feito usando dispositivos, como o no-break ou outros dispositivos de controle de energia, que podem forçar o encerramento do nó duvidoso.
Eu só sei sobre dispositivos de hardware para este trabalho, mas algumas pessoas dizem que isso pode ser feito usando libvirt em um cluster virtualizado no hypervisor KVM, por exemplo.