O RAID 1 é um exagero nas unidades do Amazon EBS em termos de confiabilidade?

7

Meu pensamento por trás disso é que o RAID 1 cria duas ou mais cópias dos dados em várias unidades EBS. No entanto, os discos do Amazon EBS não são virtualmente seguros contra falhas porque eles vivem em várias unidades físicas? Então, em termos de confiabilidade, você não está ganhando muito adicionando o RAID 1. Isso está correto ou meus fatos estão errados? Eu sei que você provavelmente ainda ganharia benefícios de desempenho de leitura do RAID 1.

    
por Sameer Parwani 31.03.2011 / 01:16

2 respostas

4

Por trás da abstração, as unidades já são redundantes. É bom executá-los no RAID 0 para velocidade. O ideal é usar a funcionalidade de instantâneo para backups. No RAID, isso pode ser feito dividindo o RAID ou congelando os volumes, capturando instantaneamente e retornando os drives ao uso normal. Como alternativa, gravar os dados em um único volume de EBS e captura instantânea que também pode abranger outros problemas, como falha de instância, que pode deixar as unidades RAID em um estado inconsistente, mesmo quando reconectadas.

TL: DR; Usar o RAID 1 é um exagero, é melhor se preparar para outras falhas scenarious com backups robustos

    
por 05.04.2011 / 23:14
17

Sim, o EBS é tolerante a falhas no back-end, mas ocorrem falhas de EBS e de maneiras inesperadas. O que você não vê é o tipo de falha que a maioria de nós está acostumado - o drive vai mal e simplesmente falha completamente. A falha mais frequente é um aumento enorme e imprevisível na latência que pode deixar sua aplicação sem resposta. Com conjuntos RAID1 ou RAID 10, você pode simplesmente reprovar a unidade com problema e substituí-la por uma nova sem tempo de inatividade.

Recupere o ec2pocolypse há alguns meses, em que uma grande porcentagem dos volumes do EBS ficou completamente sem resposta. Aqueles de nós que possuíam conjuntos RAID10 foram capazes de se recuperar facilmente ao falhar em uma unidade ou forçar sua remoção com a API. Aqueles que não o fizeram (estou olhando para você, reddit) tiveram que passar por apenas uma semana de tempo de inatividade.

Se você realmente se importa com seus dados, você nunca, nunca, em nenhuma circunstância, RAID0 isso. Ao fazer isso, você aumenta sua probabilidade de falha e reduz sua capacidade de se recuperar dessa falha. O snapshot é ótimo, mas, a menos que você faça stream de seus logs binários (por exemplo), não é possível executar uma recuperação pontual. Se você está no e-commerce, as pessoas ficam chateadas quando pagam por algo que não acaba sendo enviado porque não há mais nenhum registro dele no banco de dados.

Recentemente, escrevi sobre o RAID10 EBS depois de experimentar mais um sucesso do EBS RAID: link

A pergunta é ... em quem você confia mais em seus dados? Amazônia? ou você mesmo?

    
por 24.07.2011 / 20:51