SBD eliminando os nós do cluster quando houver problemas de rede SAN mesmo pequenos

2

Estou tendo problemas com o stonith SBD em um cluster baseado em openais.

Alguns antecedentes: O cluster ativo / passivo possui dois nós, node1 e node2. Eles estão configurados para fornecer um serviço NFS aos usuários. Para evitar problemas com o split-brain, ambos estão configurados para usar o SBD. O SBD está usando dois discos de 1MB disponíveis para os hosts por meio de uma rede de canais de fibra de múltiplos caminhos.

Os problemas começam se algo acontecer com a rede SAN. Por exemplo, hoje um dos switches brocade foi reinicializado e ambos os nós perderam 2 de 4 caminhos para cada disco, o que resultou em ambos os nós cometendo suicídio e reinicializando. Isso, é claro, era altamente indesejável porque a) havia caminhos deixados b) mesmo que o switch ficasse fora por 10-20 segundos, um ciclo de reinicialização de ambos os nós levaria de 5 a 10 minutos e todos os bloqueios do NFS seriam perdidos.

Eu tentei aumentar os valores de tempo limite do SBD (para 10sec + valores, despejo anexado no final), no entanto, um "WARN: Latência: Nenhuma atividade por 4 s excede o limite de 3 s" dicas de que algo não está funcionando como eu espera.

Aqui está o que eu gostaria de saber: a) O SBD está funcionando como deveria matar nós quando dois caminhos estão disponíveis? b) Se não, o arquivo multipath.conf está conectado corretamente? O controlador de armazenamento que usamos é um IBM SVC (IBM 2145), deve haver alguma configuração específica para ele? (como em multipath.conf.defaults) c) Como devo aumentar os tempos de espera no SBD

attachements: Multipath.conf e sbd dump ( link )

    
por Wiesław Herr 05.06.2012 / 12:34

1 resposta

0

Você precisa verificar as várias camadas:

1: parâmetros dos drivers hba

modinfo <module_name>

2: tempos limite de múltiplos caminhos e configuração de maneira especial o parâmetro no_path_retry = fail

multipath -v3

do seu sbd dump eu vi "watch timeout 10", eu acho que o tempo limite com multipath não é suficiente

O esquema deve estar no seguinte modo (Rapidamente, sem qualquer tentativa):

failed hba(report the down)-> linux scsi says (disks on that path are down) -> multipath says that disk is failed i don't retry there any io request and start to work the no failed path.

mas se você tiver os padrões de parâmetros, a solicitação io do processo sbd permanecerá suspensa

    
por 19.12.2013 / 18:36