Eu prefiro o RAID de software para RAID de hardware em servidores únicos, porque o RAID de hardware obriga o administrador a tomar precauções contra falha de hardware do controlador RAID. Isso geralmente requer estocagem e testes regulares de controladores RAID.
Em sua configuração, presumo, a redundância está no nível do nó, não no nível do disco. Se um nó falhar por algum motivo (cpu, fonte de alimentação, controlador de raid etc.), esse nó sairá do cluster e será substituído ASAP por um nó novo ou reparado e, em seguida, os dados serão reconstruídos a partir do cluster, não de o RAID. Dito isto, a questão é, se você precisar de um RAID!
Você pode dizer: "Meu banco de dados é lido principalmente, um RAID 1 irá dobrar o throughput, já que as leituras podem ser distribuídas entre os dois discos". Mas esteja ciente de que uma falha de disco seguida de substituição desse disco e reconstrução do RAID reduz temporariamente a taxa de leitura nesse nó para um único nível de disco. Se o seu banco de dados não pode compartilhar o tráfego razoável entre nós desiguais, dando menos tráfego para os nós lentos, que toda a carga que o banco de dados pode suportar cai para metade do valor normal! Isso pode forçá-lo a pegar um nó com uma falha de disco completamente fora do banco de dados, desde que esteja ocupado com sua reconstrução RAID interna. Mas isso torna o RAID quase inútil.
A alternativa é não usar nenhum RAID, mas permitir que qualquer nó entre no banco de dados duas vezes, uma vez para cada disco. Isso coloca mais peso na CPU, mas se o disco é o seu fator limitante, então quem se importa com o tempo da CPU? E, se um disco falhar, esse meio nó em particular ficará off-line e será conectado novamente, assim que o disco tiver sido substituído. Assim, a carga será compartilhada de forma justa com todos os discos.
Se você tiver uma alta carga de gravação, a solução de disco separado fornecerá o dobro da taxa de gravação do que um RAID 1.
Então, basicamente, a única razão para ainda pensar sobre a BBU é, se seus requisitos de latência são tão restritos, que você não pode esperar que os dados sejam fisicamente para o disco. Em caso de falha de energia, as BBUs garantirão que os dados ainda estejam gravados. Mas existem alternativas, ou seja, módulos de cache SSD como dm-cache ou bcache. No modo de gravação, eles gravam dados no SSD primeiro, o que é muito mais rápido, do que o write to disk, e então já comprometem a gravação. Mesmo após uma falha de energia, eles irão ler corretamente os blocos do SSD. dm-cache e bcache vêm com todos os kernels linux recentes, e um pequeno (como 64 ou 128 GB) SSD server-grade (!!) ainda é mais barato que o controlador RAID BBU.