A resposta curta para a sua pergunta é que, no meu conhecimento, você não pode desenvolver uma partição RAID de software Linux, então o RAID não o ajudará, mas o RAID10 é uma boa idéia por várias outras razões e o RAID0 é quase sempre é uma má idéia se você se preocupa com seus dados ou tempo de inatividade . Eu vejo muitos conselhos na Internet sobre o uso do RAID0 com volumes do EBS e é uma idéia absolutamente terrível em todas as circunstâncias, exceto as mais excepcionais.
Com um volume tão pequeno definido (você disse 8x1GB, então 4GB utilizável), eu iria pular toda essa complexidade e usar um único volume que você pode crescer até 1TB usando snapshots XFS. Com apenas alguns gigs de dados, você deve conseguir capturar o volume com frequência suficiente para que a recuperação de dados se torne um problema fácil e você não esteja maximizando a E / S. Alternativamente, se você puder pagar mais do que o seu atual $ .80 / mês pelo seu disco, apenas o torne maior agora e não se preocupe com essa dor de cabeça por um longo tempo. Se você realmente quis dizer 8x1TB em vez de 8x1GB, continue lendo.
Eu escrevi um artigo sobre isso algumas semanas atrás
link
e brevemente coberto este assunto em Percona Live em maio:
link
Vou resumir aqui.
No mundo do hardware físico, as formas como os discos podem falhar são conhecidas e previsíveis. Por outro lado, os volumes do EBS falham de maneiras atípicas. Você não vê "falhas" no disco - o mdadm nunca marcará automaticamente um disco como falho. O que você obtém são volumes experimentando degradação de desempenho severa e irrecuperável. Às vezes, os volumes são lentos, mas às vezes eles são completamente bloqueados com 100% de utilização e nenhuma IOPS sendo executada, tornando-se essencialmente indisponível. Às vezes, o disco volta à vida o suficiente para obter dados dele, mas às vezes não. Foi o que aconteceu no grande EC2pocalypse de abril de 2011.
Se o seu RAID0 neste cenário, você terá poucas opções. A matriz será bloqueada e os dados ficarão com ela. Às vezes, você pode tirar um instantâneo dos volumes na matriz e restaurar a captura instantânea, mas é difícil garantir a consistência e você terá tempo de inatividade - provavelmente várias horas, pois a gravação de instantâneos é um procedimento muito lento e as matrizes RAID tendem a ser grandes.
No entanto, se você usar o RAID10 e terminar com um desses volumes com desempenho insatisfatório ou gravemente degradado, tudo o que você precisa fazer é marcar o volume com falha, removê-lo da matriz e substituí-lo. Eu fiz isso muitas e muitas vezes em nossos servidores de banco de dados mestre ativos que têm 10 a 20 volumes em um conjunto RAID10 (não use tantos. É um exagero, a menos que você precise de uma matriz de 10 TB).
Minha prova disso volta à minha experiência com o EC2Pocalypse (e várias outras interrupções menores do EBS). Embora alguns dos sites mais populares da Internet tenham ficado inativos por quatro dias, meu empregador teve menos de uma hora de inatividade em nosso ambiente de produção porque conseguimos recuperar os arrays RAID10 removendo o (s) disco (s) com falha. Tem sido RAID0, teria sido uma situação SOL.
A desvantagem é a síndrome do elo mais fraco ... O desempenho do array está ligado ao membro com pior desempenho. Quanto mais volumes, maiores as chances de degradação, mas isso é realmente um problema de monitoramento. Pode-se até automatizar a recuperação, se assim for, embora eu não tenha feito isso. Com o RAID10, você aumenta suas chances de ter um problema na matriz, mas também aumenta suas chances de recuperação. Com o RAID0, cada unidade adicional é pouco mais que uma responsabilidade adicional.
Espero que isso ajude alguns.