Recuperar do cluster com falha do etcd2 / CoreOS

1

Eu tenho um cluster de três máquinas CoreOS em execução no Azure. Eu reiniciei dois ao mesmo tempo e o cluster falhou como esperado.

Eu preciso substituir o token de descoberta, o cloud-config é lido em cada inicialização, mas de acordo com os documentos do CoreOS:

Once an instance is provisioned on Azure, the cloud-config cannot be modified.

Existe um método para se recuperar disso, além de destruir e depois implantar um novo cluster?

    
por Mark 04.07.2015 / 06:39

3 respostas

1

existe arquivo de configuração no local

/var/lib/waagent/CustomData

Usando

sudo vim /var/lib/waagent/CustomData

Você deve poder editá-lo. Depois que a configuração de reinicialização será ativada.

    
por 11.08.2015 / 10:09
0

Você poderia tentar modificar a definição de serviço do etcd em /run/systemd/system/etcd.service.d/20-cloudinit.conf - você deve ver algo como

[Service]
Environment="ETCD_ADDR=10.1.1.1:4001"
Environment="ETCD_DISCOVERY=https://discovery.etcd.io/47fabddb4eed191a09bf5b70ba93426a"
Environment="ETCD_PEER_ADDR=10.1.1.1:7001"

Modifique o URL de descoberta para o novo e reinicie-o

systemctl daemon-reload
systemctl restart etcd

Você precisará testar se isso sobrevive a uma reinicialização no Azure!

    
por 04.07.2015 / 22:28
0

Se você remover dois nós no cluster de três nós, você perderá o quorum, com 3 nós que você pode perder apenas um nó, para obter mais informações sobre a tolerância a falhas do CoreOS:

Fault Tolerance Table

It is recommended to have an odd number of members in a cluster. Having an odd cluster size doesn't change the number needed for majority, but you gain a higher tolerance for failure by adding the extra member. You can see this in practice when comparing even and odd sized clusters:
Cluster Size    Majority    Failure Tolerance
1   1   0
3   2   1
4   3   1
5   3   2
6   4   2
7   4   3
8   5   3
9   5   4

https://coreos.com/etcd/docs/latest/admin_guide.html
    
por 13.12.2015 / 03:50