Sobrique explica como a intervenção manual faz com que a solução proposta seja otimizada e ewwhite fala sobre a probabilidade de falha de vários componentes . Ambas as IMO são muito boas e devem ser strongmente consideradas.
Há, no entanto, uma questão que ninguém parece ter comentado até agora, o que me surpreende um pouco. Você propõe:
make [the current hot spare host] a cold spare, take the hard drives and put them in the primary host and change the RAID from 1 to 1+1.
Isso não protege você contra qualquer coisa que o sistema operacional faça no disco.
Ele realmente protege contra falhas no disco, o que, ao mover de espelhos (RAID 1) para espelhos de espelhos (RAID 1 + 1), reduz muito o impacto inicial. Você pode obter o mesmo resultado aumentando o número de discos em cada conjunto de espelhos (por exemplo, de RAID 1 de 2 discos para RAID 1 de 4 discos), além de provavelmente melhorar o desempenho de leitura durante operações comuns.
Bem, então, vamos ver algumas maneiras que isso pode falhar .
- Digamos que você esteja instalando atualizações do sistema, e algo faz com que o processo falhe no meio do caminho; talvez haja uma queda de energia e no-break , ou talvez você tenha um acidente esquisito e tenha atingido um erro de kernel incapacitante (o Linux é bastante confiável nos dias de hoje, mas ainda há o risco).
- Talvez uma atualização apresente um problema que você não detectou durante o teste (você testa as atualizações do sistema, certo?) exigindo um failover para o sistema secundário enquanto você corrige o primário
- Talvez um bug no código do sistema de arquivos cause gravações falsas e inválidas em disco.
- Talvez um administrador com dedo gordo (ou mesmo malicioso) use
rm -rf ../*
ourm -rf /*
em vez derm -rf ./*
. - Talvez um bug em seu próprio software faça com que ele corrompa maciçamente o conteúdo do banco de dados.
- Talvez um vírus consiga se infiltrar.
Talvez, talvez, talvez ... (e tenho certeza de que há muitas outras maneiras de sua abordagem proposta falhar). No entanto, no final, isso se resume a sua vantagem "os dois conjuntos estão sempre em sincronia" ". Às vezes você não quer que eles estejam em perfeita sincronia.
Dependendo do que exatamente aconteceu, é quando você quer um modo de espera a quente ou a frio pronto para ser ativado ou desativado, ou backups adequados. De qualquer forma, os espelhos RAID de espelhos (ou espelhos RAID) não ajudam se o modo de falha envolver muito de alguma coisa além da falha do dispositivo de armazenamento de hardware (falha de disco). Algo como o raidzN do ZFS pode fazer um pouco melhor em alguns aspectos, mas não é melhor em outros.
Para mim, isso tornaria sua abordagem proposta irrepetível desde o início se a intenção for qualquer tipo de failover de desastre.