Isso é por design. Alguns administradores, inclusive eu, gostam de ver o erro para sabermos quando ocorreu e podemos investigar. Além disso, o marcapasso precisa rastrear esses erros para decidir onde é melhor iniciar um recurso.
O pacemaker tem, no entanto, um método para eliminar falhas após um período de tempo especificado, caso não ocorram novas falhas. Isso é conhecido como o tempo limite de falha. Isso pode ser configurado por recurso, mas abaixo está como você o especificaria como um padrão de recurso de todo o cluster com o shell crm. Eu esperaria que os pcs também tivessem um método para defini-lo.
crm configure rsc_defaults failure-timeout=15m
Por favor, note que isto só é verificado no intervalo de recheck do cluster, que por padrão é a cada 15 minutos. Com um tempo limite de falha de 15m definido, dependendo de quando exatamente a falha ocorreu, é possível que isso leve 29 minutos e 59 segundos para limpar.