Erros de cluster do Windows Server 2008

4

Temos algumas dezenas de clusters Win2008 e 2008R2 Enterprise que são usados para o SQL Server 2008 e 2008 R2 Enterprise / Datacenter. No passado, tivemos muitos problemas com erros aleatórios e erros de "Rede particionada" em vários servidores no outro lado do globo. Isso foi principalmente resolvido na atualização dos drivers da NIC e na desinstalação do Forefront Endpoint Protection (não sei como isso funcionou em tudo, mas ajudou).

Avançar seis meses a novembro e estamos recebendo alertas constantes do SCOM e no Log de Eventos que os clusters (dois em particular) estão falhando com erros de "Rede particionada" várias vezes por semana, mas sem falha realmente ocorreu . O SQL Server ainda está ativo e em execução, nenhuma interrupção no serviço é percebida nos front-ends da web. Os erros parecem originar-se do nó 'Passivo' e replicam-se pela rede (recebemos os primeiros alertas de Passivo, depois ativo e, em seguida, front-end da web), mas todos os nós / adaptadores de rede / discos / aplicativos / ip's / sites permanecem funcionais. Nós não podemos encontrar a razão para esses erros continuamente aparecendo quando nada parece estar errado com o cluster, rede ou qualquer coisa. Qualquer ideia sobre a causa ou possível direção que poderíamos investigar seria ótima.

    
por Ddono25 03.12.2010 / 00:23

1 resposta

1

Quando você obtém uma rede é um erro particionado, isso significa que o servidor que está atualmente executando seus aplicativos de cluster está isolado de alguma forma dos outros nós. É totalmente possível (e provável) que os serviços continuem a ser executados, supondo que não haja outras falhas. O aviso informa que, se um failover for necessário, ele provavelmente falhará (geralmente devido ao nó não ter um caminho para distribuir os discos / CSVs).

Certifique-se de verificar cuidadosamente a topologia de rede e as configurações de rede do cluster entre os servidores em questão. Tivemos uma experiência desagradável com isso, onde o cluster de failover estava usando NICs multipath para comms entre nós que eram diferentes daqueles que o SQL Server estava usando (por exemplo, VLANs separadas). Como as conexões de cluster principal e de backup estavam pateando de tal forma que o quorum poderia ser perdido se apenas um comutador fosse desativado, o SQL Server ainda mostraria como on-line, mas o cluster mostrou particionado, significando que se o servidor switch) falharia, derrubaria o cluster.

    
por 03.12.2010 / 23:43