O cluster do Windows falha após falha de energia

3

Primeiro, temos um cluster de dois nós do Windows 2008 R2 executando o HA Hyper-V e o DHCP. Utilizamos uma SAN iSCSI Dell MD3000i de back-end para armazenamento. Toda a rede é feita através de switches redundantes e drivers MPIO. A rede de dados está em uma VLAN diferente da rede principal.

Aqui está o cenário que encontramos:

Temos interrupções de energia às vezes. Temos dois dispositivos UPS no gabinete e eles duram cerca de 15 minutos, mas se não tivermos energia de volta, tudo fica inativo, nós do cluster, SAN e tudo mais.

Eventualmente, a energia volta, todos os dispositivos são configurados para inicializar quando a CA retornar. No entanto, quando temos uma interrupção completa como essa, o cluster nunca volta a funcionar corretamente. Recebemos os erros comuns, como o disco de quorum não está disponível, etc. Além disso, nossos dois controladores de domínio principais são máquinas virtuais na parte superior do cluster VM. Temos um servidor físico em execução como outro controlador de domínio, achando que isso ajudaria quando as coisas voltassem a ficar on-line.

O que não estamos entendendo é por que o sistema não é capaz de se recuperar quando é inicializado, há um DC disponível para autenticação, eventualmente. A rede iSCSI está on-line novamente, há algo mais que está faltando?

Acho que pode estar relacionado ao fato de o serviço Iniciador iSCSI não iniciar com rapidez suficiente quando o serviço de cluster está pronto para uso.

Todas as ideias ou coisas que posso postar para ajudar?

Obrigado Brent

    
por Brent Pabst 23.12.2011 / 14:30

2 respostas

2

Tivemos o mesmo problema com o cluster que não voltou a funcionar corretamente após uma falha de energia. Como você, o armazenamento compartilhado está localizado em SANs iSCSI. A solução para nós era garantir que a inicialização do host e do convidado da VM fosse atrasada o suficiente para garantir que as Redes SAN estivessem novamente on-line FIRST. Descobrimos que, se não fizermos isso, os volumes compartilhados se reconectarão, mas permanecerão em um estado off-line, fazendo com que o cluster falhe ...

    
por 12.01.2012 / 22:02
0

Eu encontrei este problema no meu próprio sistema. Após uma falha de energia, o cluster não voltava a funcionar porque o controlador de domínio não estava pronto ou a SAN ainda não estava pronta. Para aqueles que não têm PDUs gerenciados ou opções de bios para atrasar a inicialização e precisam adicionar um atraso de inicialização, há um método fácil postado em este blog

No Server 2008, abra um prompt de comando e digite:

bcdedit /copy {current} /d "Boot delay placeholder"
bcdedit /timeout 300

Isso cria uma segunda opção de menu de inicialização (necessária para o tempo limite aparecer) e define o tempo limite para 5 minutos (300 segundos). O servidor ficará no menu de inicialização até que o tempo limite seja atingido ou alguém pressione a tecla enter.

    
por 08.07.2013 / 21:40