Eu tenho um cluster glusterfs de seis nós em execução. Esta manhã, notei que uma das máquinas estava se comportando estranhamente, então eu reiniciei, só para estar seguro - um manual do STONITH, se você quiser.
Após a reinicialização, três dos outros nós reconhecem a máquina reinicializada como "Conectada" em gluster pool list
e gluster peer status
, mas os outros dois mostram o status "Desconectada". Estranhamente, até mesmo os nós que mostram "Desconectado" em gluster pool list
ainda mostram como "Conectado" em gluster volume heal [volname] info
.
Eu tentei gluster peer probe
de ambos os lados sem efeito. Verifiquei que posso conectar à porta 24007 e à porta 49154 (a porta em bloco mostrada em gluster volume status
nos peers que a reconhecem como Connected) no nó reinicializado das máquinas que a consideram "Desconectada".
/var/log/glusterfs/glustershd.log
nos nós que vêem o servidor reinicializado como Desconectado:
[2018-01-09 11:36:39.258109] I [MSGID: 114018] [client.c:2280:client_rpc_notify] 0-palantir-client-4: disconnected from palantir-client-4. Client process will keep trying to connect to glusterd until brick's port is available
[2018-01-09 11:36:50.074074] E [socket.c:2309:socket_connect_finish] 0-palantir-client-4: connection to xxx.xxx.xxx.205:24007 failed (No route to host)
No entanto, uma hora e meia depois, ele não se reconectou, apesar da afirmação da primeira entrada de log de que continuaria tentando.
Dado tudo isso, o que eu preciso fazer para fazer com que os dois peers errantes se reconectem ao nó reiniciado?