Sim, o EBS é tolerante a falhas no back-end, mas ocorrem falhas de EBS e de maneiras inesperadas. O que você não vê é o tipo de falha que a maioria de nós está acostumado - o drive vai mal e simplesmente falha completamente. A falha mais frequente é um aumento enorme e imprevisível na latência que pode deixar sua aplicação sem resposta. Com conjuntos RAID1 ou RAID 10, você pode simplesmente reprovar a unidade com problema e substituí-la por uma nova sem tempo de inatividade.
Recupere o ec2pocolypse há alguns meses, em que uma grande porcentagem dos volumes do EBS ficou completamente sem resposta. Aqueles de nós que possuíam conjuntos RAID10 foram capazes de se recuperar facilmente ao falhar em uma unidade ou forçar sua remoção com a API. Aqueles que não o fizeram (estou olhando para você, reddit) tiveram que passar por apenas uma semana de tempo de inatividade.
Se você realmente se importa com seus dados, você nunca, nunca, em nenhuma circunstância, RAID0 isso. Ao fazer isso, você aumenta sua probabilidade de falha e reduz sua capacidade de se recuperar dessa falha. O snapshot é ótimo, mas, a menos que você faça stream de seus logs binários (por exemplo), não é possível executar uma recuperação pontual. Se você está no e-commerce, as pessoas ficam chateadas quando pagam por algo que não acaba sendo enviado porque não há mais nenhum registro dele no banco de dados.
Recentemente, escrevi sobre o RAID10 EBS depois de experimentar mais um sucesso do EBS RAID: link
A pergunta é ... em quem você confia mais em seus dados? Amazônia? ou você mesmo?