Primeiro, temos um cluster de dois nós do Windows 2008 R2 executando o HA Hyper-V e o DHCP. Utilizamos uma SAN iSCSI Dell MD3000i de back-end para armazenamento. Toda a rede é feita através de switches redundantes e drivers MPIO. A rede de dados está em uma VLAN diferente da rede principal.
Aqui está o cenário que encontramos:
Temos interrupções de energia às vezes. Temos dois dispositivos UPS no gabinete e eles duram cerca de 15 minutos, mas se não tivermos energia de volta, tudo fica inativo, nós do cluster, SAN e tudo mais.
Eventualmente, a energia volta, todos os dispositivos são configurados para inicializar quando a CA retornar. No entanto, quando temos uma interrupção completa como essa, o cluster nunca volta a funcionar corretamente. Recebemos os erros comuns, como o disco de quorum não está disponível, etc. Além disso, nossos dois controladores de domínio principais são máquinas virtuais na parte superior do cluster VM. Temos um servidor físico em execução como outro controlador de domínio, achando que isso ajudaria quando as coisas voltassem a ficar on-line.
O que não estamos entendendo é por que o sistema não é capaz de se recuperar quando é inicializado, há um DC disponível para autenticação, eventualmente. A rede iSCSI está on-line novamente, há algo mais que está faltando?
Acho que pode estar relacionado ao fato de o serviço Iniciador iSCSI não iniciar com rapidez suficiente quando o serviço de cluster está pronto para uso.
Todas as ideias ou coisas que posso postar para ajudar?
Obrigado
Brent