pacemaker elimina as acções falhadas automaticamente

1

Eu criei um cluster ativo / passivo usando o Pacemaker / Corosync / drbd e "simulei" a falha do Apache pkill httpd e o pacemaker foi recuperado da "falha" e iniciei o httpd agora ao executar pcs status I get:

Failed Actions:
* apache_monitor_60000 on server1 'not running' (7): call=39, status=complete, exitreason='none',
    last-rc-change='Wed May  9 09:55:45 2018', queued=0ms, exec=0ms

O marcapasso não elimina a ação fracassada após uma recuperação bem-sucedida? Ou existe alguma outra maneira de limpar a ação com falha que não manual?

Obrigado antecipadamente!

    
por postFix 09.05.2018 / 16:57

1 resposta

1

Isso é por design. Alguns administradores, inclusive eu, gostam de ver o erro para sabermos quando ocorreu e podemos investigar. Além disso, o marcapasso precisa rastrear esses erros para decidir onde é melhor iniciar um recurso.

O pacemaker tem, no entanto, um método para eliminar falhas após um período de tempo especificado, caso não ocorram novas falhas. Isso é conhecido como o tempo limite de falha. Isso pode ser configurado por recurso, mas abaixo está como você o especificaria como um padrão de recurso de todo o cluster com o shell crm. Eu esperaria que os pcs também tivessem um método para defini-lo.

crm configure rsc_defaults failure-timeout=15m

Por favor, note que isto só é verificado no intervalo de recheck do cluster, que por padrão é a cada 15 minutos. Com um tempo limite de falha de 15m definido, dependendo de quando exatamente a falha ocorreu, é possível que isso leve 29 minutos e 59 segundos para limpar.

    
por 09.05.2018 / 20:24