Falha no tempo do gerador de marca-passo não redefina o número de falhas

2

Estou usando o Pacemaker 1.1.13 e o Corosync 2.3.4 no Centos7.

Eu tenho um problema com o recurso Mestre / Escravo. Há meta attrs para meu recurso:

limite de migração = 1

falha-tempo limite = 10s

mas quando o recurso é desativado, há apenas uma tentativa de iniciá-lo. A documentação diz que o atributo failure-timeout = 10s deve redefinir o failcount a cada 10 segundos, mas isso não acontece, portanto, o recurso nunca inicia.

Você sabe alguma coisa sobre esse problema? Talvez eu esteja fazendo algo errado? Estou enviando meu status de 'pcs' abaixo:

Cluster Name: webcluster
Corosync Nodes:
 10.121.100.101 10.121.100.102
Pacemaker Nodes:
 pm-node1 pm-node2

Resources:
 Master: Services-master
  Meta Attrs: failure-timeout=10s
  Group: Services
   Meta Attrs: migration-threshold=1
   Resource: Test (class=ocf provider=scooty type=test)
    Operations: start interval=0s timeout=20 (Test-start-interval-0s)
                stop interval=0s timeout=20 (Test-stop-interval-0s)
                monitor interval=10 role=Master timeout=20 (Test-monitor-interval-10)
                monitor interval=11 role=Slave timeout=20 (Test-monitor-interval-11)

Stonith Devices:
Fencing Levels:

Location Constraints:
Ordering Constraints:
Colocation Constraints:

Resources Defaults:
 migration-threshold: 1
 failure-timeout: 10
Operations Defaults:
 No defaults set

Cluster Properties:
 cluster-infrastructure: corosync
 cluster-name: webcluster
 dc-version: 1.1.13-10.el7_2.4-44eb2dd
 have-watchdog: false
 last-lrm-refresh: 1475145002
 no-quorum-policy: ignore
 start-failure-is-fatal: false
 stonith-enabled: false
    
por scooty 29.09.2016 / 14:51

1 resposta

1

Dependendo do tipo de falha, failure-timeout pode não ser suficiente para limpá-lo. As falhas de operação de início e parada são consideradas "fatais" e não serão limpas automaticamente pelo tempo limite de falha.

Se você estiver tendo problemas com uma falha na operação de início, poderá definir a propriedade de cluster start-failure-is-fatal=false . Os dispositivos Fencing / STONITH são a única maneira de recuperar de uma falha de parada.

Espero que ajude.

    
por 30.09.2016 / 16:11