Comportamento dos Clusters de Failover do SQL Server 2008 R2 em várias falhas

2

Estou testando a resiliência de um dos nossos sistemas de teste. Temos 2 x DB (SQL 2008 R2 no Server 2008 R2, em execução nas VMs do ESXi) organizados em um cluster de failover.

Desligar o serviço Active SQL Server não faz muito - o serviço não é reiniciado e não ocorre nenhum failover; Eu entendo isso é por design - o sistema assume que o administrador tinha boas razões para desligar o serviço e assim vai ficar quieto.

No entanto, podemos simular uma falha de várias maneiras - eu achei que o mais simples era simplesmente matar o serviço SQL no Gerenciador de Tarefas. Nosso cluster está configurado para permitir uma falha em 6 horas, portanto, após essa primeira falha, ele tenta reiniciar o serviço - o que é bem-sucedido. Elimine o serviço uma segunda vez (dentro de 6 horas) e o gerenciador do cluster decidirá fazer com que o banco de dados falhe no servidor passivo. Até aí tudo bem ...

Se você matar o serviço no segundo servidor, ele será reiniciado novamente. Mas quando nós matamos o serviço pela segunda vez, ele não falha no primeiro servidor.

Estou assumindo que isso também é por design; faz sentido, porque falhamos em um servidor que não era estável o suficiente apenas alguns minutos antes? Isso parece lógico, mas é verdade? E se assim for, obedecer ao mesmo período de tempo limite (ou seja, 6 horas), e isso pode ser redefinido?

Basicamente, antes de dizer aos meus colegas que os recursos de failover estão funcionando, quero apenas confirmar / esclarecer minha compreensão e suposições.

    
por CJM 12.04.2013 / 12:51

1 resposta

0

Algumas outras coisas que você pode testar:

Tente desligar as caixas (desligue a energia para obter uma simulação melhor). Além disso, desconecte os cabos da rede e desative a conexão entre os servidores.

(apesar de admitir, geralmente é o software que parece causar um failover)

para definir políticas de reinicialização:

Abra o Administrador de Cluster.

Na árvore do console, clique na pasta Recursos.

No painel de detalhes, clique no recurso desejado.

No menu Arquivo, clique em Propriedades.

Na guia Avançado, faça as alterações desejadas.

Parece que você deseja examinar as seguintes configurações: tempo limite, limite de failover e período de failover para recursos. O tempo limite controla quanto tempo o serviço Cluster aguarda o encerramento do recurso. O limite de failover e o período controlam quantas vezes o serviço de cluster tenta fazer failover de um recurso em um determinado período de tempo.

    
por 12.04.2013 / 18:08