Quando os nós do cluster perdem contato uns com os outros, para evitar um cenário split-brain , onde ambos os nós acham que são primários e tentam executar simultaneamente o recurso compartilhado com um possível desastre como resultado (isso é especialmente um grande problema em dois clusters de nó, porque quem tem quorum se ambos os nós tiverem um votar cada?), para atenuar isso, alguns clusters implementam várias formas de esgrima.
Na página wiki
Fencing is the process of locking resources away from a node whose status is uncertain.
There are a variety of fencing techniques available.
One can either fence nodes - using Node Fencing, or fence resources using Resource Fencing. Some types of resources are Self Fencing Resources, and some aren't damaged by simultaneous use, and don't require fencing at all.
Quando um nó pré-forma um desligamento limpo, ele deixará o cluster e, assim, os outros saberão o que está acontecendo e, portanto, apenas assumirão quaisquer serviços que o nó possa estar executando e, em seguida, continuará. Quando o nó, em vez de deixar o cluster, obter um kernel panic, os outros membros do cluster não saberão o status do outro nó. Ele será "incerto" do ponto de vista deles, então, eles executarão as ações "esgrima" configuradas, o que no caso de STONITH significa tentar remover o nó falso pela força do cluster (por ciclo de energia, etc.).
Examinando seus registros, parece que o mecanismo meatware
STONITH foi escolhido para sua configuração de cluster. Como o nome sugere, isso significa ativar manualmente o ciclo do outro nó e depois executar o comando. De doc :
meatware
Strange name and a simple concept. meatware requires help from a human to operate. Whenever invoked, meatware logs a CRIT severity message which should show up on the node’s console. The operator should then make sure that the node is down and issue a meatclient(8) command to tell meatware that it’s OK to tell the cluster that it may consider the node dead. See README.meatware for more information.
Existem outras maneiras de configurar o fence. Ao criar um cluster, normalmente recebo dois switches APC para a PSU: se configure "fence da APC" ( stonith -t apcmaster -h
). Dessa forma, quando um nó falha, o outro executará uma reinicialização por ciclo-energia do membro defeituoso através do login na interface APC e enviando o comando shutdown / reboot nos slots PSU conectados (recebo dois para evitar um único ponto de falha) .