Procurando por uma experiência real de falha na unidade RAID 5 2? [fechadas]

15

Gostaria de saber se alguém tem alguma experiência pessoal de falha na unidade RAID 5 2 com unidades grandes?

Pelo que entendi, a teoria é que, com grandes unidades de 1-2TB, se uma unidade falhar no conjunto de raid, ela precisará reconstruir tudo, de modo que atinja todas as outras unidades com muita força e a chance de outra falha aumenta, especialmente se as unidades forem do mesmo lote de fabricação. E se você perder outra unidade, perderá todos os dados.

Isso geralmente é explicado após a declaração "RAID não é backup" com a qual eu concordo.

A teoria disso faz sentido, e eu entendo, mas isso realmente acontece?

    
por Brian 23.07.2009 / 19:30

10 respostas

15

Sim, isso aconteceu comigo. Um conjunto de 4 (classe de consumidor) WD 500 drives foi ruim ao longo de cerca de uma semana. Demorei para substituir o primeiro e não coloquei o array offline e perdi todos os meus dados quando o segundo falhou. Eu reutilizei os dois bons restantes, e um deles falhou no mês seguinte. Eles foram todos devidamente resfriados e cuidados. Só posso dizer que agora acredito na retórica do "lote ruim".

Em um incidente separado, eu tive 3 unidades separadas de marcas e modelos diferentes falhando dentro de um mês um do outro, embora eu esteja bastante certo de que a razão pela qual eles falharam foi devido à ventilação inadequada. Não cozinhe suas unidades!

    
por 23.07.2009 / 21:16
4

Isso realmente aconteceu comigo, no entanto, não foi realmente a maneira mais comum de uma unidade falhar. Eu tinha 4 drives sata externos de 500GB no RAID 5. Eles estavam conectados a um servidor antigo IBM montado em rack. A configuração inteira estava escondida debaixo das escadas e um dia, um rato ou um coelho, mas algo mastigou alguns cabos de energia e duas unidades foram encurtadas. Todas as unidades estavam em gabinetes externos baratos, então eu acho que não deveria ter ficado tão surpreso.

    
por 23.07.2009 / 20:38
3

Você está perguntando se pode perder 2 drives de volta para trás? Claro, tudo pode acontecer. O Raid 5 permite grande disponibilidade e aumento de desempenho para acesso a dados, mas o raid 5 não faz backup de nada. Ele simplesmente ajuda a evitar o uso de seus dados devido a uma perda de hardware de unidade única. Não é uma cópia dos seus dados. Você não pode recuperar uma cópia antiga, uma revisão antiga ou simplesmente uma cópia do seu trabalho atual. Além disso, não protege contra corrupção de dados. Há mais coisas que podem dar errado do que simplesmente perder uma unidade. O vírus pode corromper todos os seus dados, a irmãzinha gosta de ver a lata de lixo no seu desktop ficar cheia e vazia enquanto ela joga arquivos nela, amigo estúpido deixa cair um refrigerante na sua máquina, etc.

Além disso, lembre-se, você pode perder o controlador RAID do disco rígido. E você não pode simplesmente mover a matriz para outro controlador aleatório. Você normalmente tem que usar exatamente o mesmo e ainda assim, algo pode dar errado. Alguns controladores de raid armazenam informações na placa e outras informações de configuração de envio para o array anexado. É uma aposta quando esta situação surge.

Mesma pergunta no SF: link

Precisa de mais motivos?

EDIT: Sua idéia está correta e pode acontecer a qualquer um. Eu pessoalmente não vi mais de uma unidade falhar, mas eu vi alguns morrem muito juntos. Nenhum deles estava naquela janela de reconstrução, mas é tecnicamente um risco. Mas, você tem um backup no caso de algo acontecer certo? haha Algumas pessoas aprendem da maneira mais difícil sobre isso algumas vezes. O Raid 6 leva-o ao próximo nível com dupla paridade e pode perder até 2 drives. Com qualquer configuração de ataque, a possibilidade de falha aumenta com o tamanho (número de unidades) e a complexidade da matriz. Mais unidades = mais pontos de possível falha

    
por 23.07.2009 / 19:36
3

Você está certo, em um cenário RAID-5, se você perder um disco e depois reconstruí-lo, o sistema deve ler com sucesso todos os setores de todas as unidades sobreviventes no conjunto RAID. A NetApp afirma que, em algumas situações (eles podem fazer conjuntos RAID de até 28 drives de alguns tipos), suas chances de acertar uma segunda falha podem ser de uma em dez. Assim, eles fazem uma "paridade dupla", que acredito estar relacionada ao RAID-6.

Obviamente, quanto mais discos você tiver em um conjunto RAID, e quanto maiores eles forem, maior a probabilidade de você atingir um problema. Para um pequeno conjunto RAID (3-5 discos), as probabilidades provavelmente não mudaram muito em relação ao uso do RAID-5.

Mas eu sempre faço o Raid-DP no NetApps onde posso.

    
por 23.07.2009 / 20:32
2

Nenhuma experiência pessoal , mas eu escutei os gritos daqueles que tiveram isso acontecendo com eles. Qualquer sistema de armazenamento - seja uma única unidade, uma chave USB, uma fita, uma enorme instalação RAID ou o Amazon S3 - eventualmente falhará de qualquer maneira que seja mais inconveniente para você. Uma segunda falha durante a reconstrução de um conjunto RAID 5 é apenas uma das maneiras pelas quais isso pode acontecer.

Como um complemento, o suporte para o RAID de paridade tripla foi integrado ao OpenSolaris há alguns dias - Assim, pelo menos um fornecedor acha que permitir duas falhas adicionais durante a reconstrução de RAID de paridade vale o esforço de engenharia.

    
por 23.07.2009 / 21:18
1

Isso realmente acontece de fato. É por isso que as soluções de storage da NetApp têm uma implementação do RAID 6. Isso é apenas no caso de você perder uma segunda unidade durante a reconstrução.

Você pode calcular a probabilidade de uma falha usando as fórmulas padrão listadas na página a seguir link text À medida que você aumenta para números cada vez maiores de unidades de dados, a probabilidade de uma falha desse tipo aumenta. Se você tiver discos suficientes, poderá enviar esse número para a zona de preocupação se estiver usando um RAID 5 com um grande número de volumes de dados.

Eu posso dizer por experiência própria que você certamente pode ter duas falhas de unidade na mesma matriz dentro do mesmo período de tempo crítico. Raid 6 me salvou de ter que restaurar a partir do backup.

Espero que isso ajude

    
por 23.07.2009 / 20:46
1

Aqui está um cenário: uma unidade falha em sua matriz RAID5, mas sua reserva já estava disponível ou a ordem do novo disco rígido finalmente chegou. Você (ou algum lacaio remoto talvez) vai com a movimentação fresca na mão para substituir defeituoso. Devido a má rotulagem, cansaço ou simplesmente insensatez, um dos discos restantes é ejetado em vez do defeituoso ... e há o seu segundo fracasso.

    
por 25.05.2011 / 21:14
1

Eu já vi isso várias vezes, pois estou no negócio de recuperação de dados. E sim, eles geralmente falham ao mesmo tempo, mas eu não acredito que isso tenha alguma coisa a ver com quando eles foram construídos necessariamente, como eu também vi isso acontecer com drives incompatíveis. Na maioria das vezes, esse tipo de falha ocorre logo após uma tempestade, queda de energia ou falta de energia.

Normalmente, o surto danifica as unidades ou o controlador RAID e, em poucos dias, começam a falhar. Na verdade, estou trabalhando agora na recuperação de uma matriz que tinha duas unidades que falham simultaneamente após uma queda de energia. (parece desesperado agora)

Uma pequena dica: os protetores contra surtos realmente não protegem seu equipamento. Sempre conecte seu raid 5 a um bom no-break. Eu nunca vi isso acontecer quando o array estava em um no-break.

    
por 29.11.2011 / 15:15
1

Acionar acidentalmente uma segunda unidade boa de um conjunto de paridade única não deve destruir a matriz com uma boa implementação de RAID. Eu sei que o ZFS RAID-Z congelará qualquer E / S no array até que você o on-line novamente.

    
por 14.01.2012 / 07:43
0

Outro cenário: um subordinado remoto é ordenado a buscar a fita de backup fora do tapedrive. Ela vai até o rack e não tira a fita da fita adesiva ... mas 2 (dois) HDs estão fora dos compartimentos ao mesmo tempo e voila: falha na unidade 2.

Você acha que isso é improvável? Bem eu estou em um cliente agora que fez exatamente isso e agora está olhando para uma reconstrução do servidor.

Good thinng ela não queimou a fita que estava realmente no tapedrive ou outros enfeites; -)

    
por 16.11.2011 / 15:21