RAID-5: Dois discos falharam simultaneamente?

21

Temos um servidor Dell PowerEdge T410 executando o CentOS, com um array RAID-5 contendo 5 discos Seagate Barracuda 3 TB SATA. Ontem o sistema travou (não sei exatamente como e não tenho nenhum log).

Após a inicialização no BIOS do controlador RAID, vi que dos 5 discos, o disco 1 foi rotulado como "ausente" e o disco 3 foi rotulado como "degradado". Forcei o backup do disco 3 e substitui o disco 1 por um novo disco rígido (do mesmo tamanho). O BIOS detectou isso e começou a reconstruir o disco 1, mas ficou preso em% 1. O indicador de progresso da fiação não se moveu a noite toda; totalmente congelado.

Quais são minhas opções aqui? Existe alguma maneira de tentar reconstruir, além de usar algum serviço de recuperação de dados profissional? Como dois discos rígidos poderiam falhar simultaneamente? Parece excessivamente coincidência. É possível que o disco 1 falhou e, como resultado, o disco 3 "ficou fora de sincronia?" Em caso afirmativo, existe algum utilitário que eu possa usar para recuperá-lo "em sincronia?"

    
por Mike Furlender 22.07.2014 / 16:48

8 respostas

23

Depois que você aceitou uma resposta ruim , eu realmente sinto muito pela minha opinião herética (que já salvou essas matrizes várias vezes).

Seu segundo disco com defeito provavelmente tem um pequeno problema, talvez uma falha de bloco. Esta é a causa, porque a ferramenta de sincronização bad do seu firmware bad raid5 caiu nele.

Você poderia facilmente fazer uma cópia de nível de setor com uma ferramenta de clonagem de disco de baixo nível (por exemplo, gddrescue provavelmente é muito útil), e usar este disco como seu novo disk3. Nesse caso, sua matriz sobreviveu com uma pequena corrupção de dados.

Eu sinto muito, provavelmente é tarde demais, porque a essência da resposta ortodoxa neste caso: "falha múltipla em um ataque5, aqui está o apocalipse!"

Se você quer uma invasão muito boa e redundante, use o software raid in linux. Por exemplo, seu layout de dados de superblocos raid é público e documentado ... Eu realmente sinto muito, por isso é outra opinião herética.

    
por 23.07.2014 / 15:29
38

Você tem uma falha dupla no disco. Isso significa que seus dados se foram e você terá que restaurar a partir de um backup. É por isso que não devemos usar o RAID 5 em discos grandes. Você deseja configurar seu raid para que sempre tenha a capacidade de resistir a duas falhas de disco, especialmente com grandes discos lentos.

    
por 22.07.2014 / 16:57
37

Suas opções são:

  1. Restaurando de backups.
    • Você faz tem backups, não é? O RAID não é um backup.

  2. Recuperação profissional de dados
    • É possível, embora muito caro e não garantido, que um serviço de recuperação profissional recupere seus dados.

  3. Aceitar sua perda de dados e aprender com a experiência.
    • Como observado nos comentários, discos SATA grandes não são recomendados para uma configuração RAID 5 devido à possibilidade de uma falha dupla durante a reconstrução, fazendo com que a matriz falhe.
      • Se for necessário RAID de paridade, RAID 6 é melhor e, da próxima vez, use um hot spare também.
      • Os discos SAS são melhores por vários motivos, incluindo mais confiabilidade, resiliência e taxas mais baixas de erros de bit irrecuperáveis que podem causar erros de leitura (UREs) (erros de leitura irrecuperáveis)
    • Como mencionado acima, o RAID não é um backup. Se os dados são importantes, verifique se o backup foi feito e se os backups foram testados para restauração.
por 22.07.2014 / 17:03
4

O fracasso simultâneo é possível, até mesmo provável, pelas razões que outros deram. A outra possibilidade é que um dos discos falhou algum tempo antes, e você não estava verificando ativamente.

Certifique-se de que seu monitoramento detecte prontamente um volume RAID em execução no modo degradado. Talvez você não tenha uma opção, mas nunca é bom ter que aprender essas coisas pelo BIOS.

    
por 22.07.2014 / 18:17
2

Para responder "Como dois discos rígidos podem falhar simultaneamente assim?" Precisamente, gostaria de citar este artigo :

The crux of the argument is this. As disk drives have become larger and larger (approximately doubling in two years), the URE (unrecoverable read error) has not improved at the same rate. URE measures the frequency of occurrence of an Unrecoverable Read Error and is typically measured in errors per bits read. For example an URE rate of 1E-14 (10 ^ -14) implies that statistically, an unrecoverable read error would occur once in every 1E14 bits read (1E14 bits = 1.25E13 bytes or approximately 12TB).

...

The argument is that as disk capacities grow, and URE rate does not improve at the same rate, the possibility of a RAID5 rebuild failure increases over time. Statistically he shows that in 2009, disk capacities would have grown enough to make it meaningless to use RAID5 for any meaningful array.

Então, o RAID5 não era seguro em 2009. O RAID6 também estará em breve. Quanto ao RAID1, comecei a criar 3 discos. O RAID10 com 4 discos também é precário.

    
por 24.07.2014 / 11:36
2

O segmento é antigo, mas se você estiver lendo, entenda quando uma unidade falhar em uma matriz de raid, verifique a idade das unidades. Se você tiver vários discos em uma matriz de ataque e eles tiverem mais de 4 a 5 anos, as chances são boas de que outra unidade falhará. *** FAÇA UMA IMAGEM ou Backup ** antes de prosseguir. Se você acha que tem um backup, teste-o para ter certeza de que pode lê-lo e restaurá-lo.

O motivo é que você está colocando anos de uso normal nas unidades restantes à medida que giram em velocidade máxima por horas e horas. Quanto maior o número de unidades de 6 anos, maior a chance de outra unidade falhar devido ao estresse. Se é RAID5, e você explodir o array, ótimo você tem um backup, mas um disco de 2TB levará de 8 a 36 horas para ser restaurado, dependendo do tipo de controlador RAID e de outro hardware.

Substituímos rotineiramente a seção de raid inteira em servidores de produção, se todas as unidades forem antigas. Por que tempo substituiu uma unidade e espere até a próxima falhar em um dia, semana, mês ou dois. Como cheep como unidades são, é só não vale a pena o tempo de inatividade.

    
por 01.02.2017 / 21:30
1

Normalmente, ao comprar unidades em um lote de um revendedor de renome, você pode solicitar que as unidades sejam de lotes diferentes, o que é importante por motivos citados acima. Em seguida, é exatamente por isso que o RAID 1 + 0 existe. Se você tivesse usado 6 unidades no RAID 1 + 0, teria 9 TB de dados com redundância imediata, em que não é necessária a reconstrução de um volume.

    
por 22.07.2014 / 18:43
1

Se o seu controller é reconhecido pelo dmraid (por exemplo aqui ) no linux, você pode usar ddrescue para recuperar o disco com falha para um novo, e use o dmraid para construir o array, ao invés do seu controlador de hardware.     

por 24.07.2014 / 17:03