A redundância vem em algumas formas diferentes. Se você está falando sobre redundância de hardware, o clustering do Windows é uma ótima opção. Na sua situação de badRAM, você teria passado para o nó passivo e teria um minuto ou mais de tempo de inatividade e, em seguida, poderia ter se concentrado em consertar o outro nó sem toda a pressão de estar totalmente inativo.
Os clusters do Windows funcionam bem, mas há uma curva de aprendizado se você nunca usou antes. Isso é absolutamente algo que você deseja testar em um laboratório primeiro e dedicar muito tempo para testar failovers, fail back, etc., para que você esteja realmente à vontade antes de entrar em produção.
O requisito de controlador de domínio existe porque você precisa que o cluster seja capaz de ser executado no mesmo contexto de segurança em ambos os nós, e as contas locais não fornecem isso. Em vez disso, você usa uma conta de domínio como a conta do cluster. Se você ainda não tem um domínio, também precisa pensar na redundância para o domínio - facilmente alcançada com um par de controladores de domínio.
O armazenamento compartilhado é necessário porque você precisa de alguma forma de armazenamento que possa ser acessada por ambos os nós do cluster. Isso pode ser armazenamento SAN de fibra ou iSCSI - o que você tem disponível e há muitas opções se você estiver começando do zero.
A outra vantagem do armazenamento em cluster é que você pode fazer um failover rápido quando precisar realizar manutenção no nó ativo (atualizações da Microsoft, atualizações de firmware, etc) e a coisa toda não precisa estar inativa durante essa operação.
Não há falta de informações sobre clustering na Internet. Este é um bom começo .