É uma má idéia usar o RAID 1 eo NBD para criar um espelho de um disco para failover?

3

O que eu queria fazer é criar um espelho do disco de uma máquina em uma máquina de failover para que, no caso de a máquina principal falhar, eu apenas reinicie o failover, selecione uma partição raiz diferente e esteja pronto para uso.

Eu configurei assim:

  1. Uma máquina principal e uma máquina de failover.
  2. Ambas as máquinas têm uma partição RAID definida.
  3. A máquina de failover atende a sua partição RAID via nbd-server.
  4. A máquina principal monta a partição RAID do failover via nbd-client.
  5. Na máquina principal, as duas partições RAID são combinadas via mdadm em um único dispositivo RAID com o sinalizador --write-mostly definido para a partição remota.

Eu escrevi alguns scripts para iniciar tudo automaticamente, configurei o grub no failover para que ele tenha as opções certas para permitir que você inicialize a partir de uma pequena partição de espelhamento ou da partição de failover. Eu testei e funciona.

O problema que enfrentei é que, aproximadamente uma vez por semana, a máquina principal parece congelar completamente. Você não pode ssh para ele, o console não vai responder e, após a reinicialização da máquina, as entradas de log apenas param em um determinado momento e nada no log que indica um erro.

Eu desconectei a partição do NBD e executei tudo com apenas o disco local na matriz RAID e ela é executada por um mês sem problemas.

O NBD é instável? O RAID poderia decidir desconectar a partição local e sair da partição nbd no mesmo momento em que a rede falha de alguma forma? Isso é apenas o caminho errado para fazer isso?

Obrigado.

    
por BHS 20.10.2011 / 06:27

1 resposta

1

O problema que você quer pegar é complexo.

Para espelhar diskpartitions pela rede parece drbd a escolha certa. drbd não é trivial, mas fácil o suficiente, para configurá-lo corretamente em algumas horas.

Se você planeja fazer o failover automático de serviços nessas máquinas, conheça o Linux-HA . p>

Mas, você deve saber que o HA é uma configuração muito complexa, que possui uma curva de aprendizado íngreme. Tudo isso será testado com cuidado antes de entrar em produção. Você foi avisado!

    
por 20.10.2011 / 11:54