Você disse:
About 60% into the rebuild one of the other drives in the array drops out
Este é um risco conhecido com o RAID-5 e é uma das razões pelas quais o RAID-5 não é considerado seguro para uso atualmente. Se duas unidades falharem ao mesmo tempo em uma matriz RAID-5, os dados serão irrecuperáveis. Infelizmente, a reconstrução de uma matriz em que uma unidade falhou pode causar estresse suficiente para as outras unidades, o que aumenta bastante a probabilidade de que outra unidade falhe durante a reconstrução. Quanto mais tempo a reconstrução (ou seja, quanto maiores as unidades, e quanto mais ocupadas estão fazendo outro trabalho real), mais provável é que isso aconteça.
Isso é especialmente verdadeiro se o conjunto RAID estiver em uso ativo por vários anos e os discos estiverem próximos do fim de vida esperado. Ou se todas as unidades da matriz forem da mesma execução de produção e tiverem falhas semelhantes (se houver um "lote defeituoso") ou uma vida útil semelhante esperada.
Devido à maneira como os dados são divididos nas unidades em uma matriz RAID-5 de 4 discos (ou seja, 3 discos para separar dados, 1 disco para paridade), quando duas unidades falham, pelo menos um terço todos os arquivos estarão ausentes . Isso é semelhante ao que acontece com a distribuição RAID-0 se uma ou mais unidades falharem - as partes dos arquivos distribuídos na (s) unidade (s) com falha desapareceram.
O RAID-6 melhora um pouco ao permitir que duas unidades falhem antes que todos os dados sejam perdidos, mas sofre o mesmo problema se três unidades falharem simultaneamente.
O RAID-1 é mais seguro porque se uma unidade morre, você pode recuperar os dados da outra unidade (ou de outras unidades se você espelhar para mais de uma unidade). Se todas as unidades de um conjunto de espelhos falharem, você perderá tudo.
O RAID-10 é semelhante ao RAID-1. Ainda é vulnerável se todas as unidades de um conjunto de espelhos morrerem simultaneamente. O RAID-10 pode sobreviver a uma falha de duas unidades, mas APENAS se as unidades com falha não estiverem no mesmo conjunto de espelhos. Por exemplo, id tem unidades a, b, c, d com dois pares espelhados (a + b e c + d) e qualquer combinação de duas unidades de pares diferentes (isto é, a + c, a + d, b + c ou b + d) pode falhar sem perder seus dados, mas se a + b ou c + d falhar, seus dados serão perdidos.
Com o RAID-1 e o RAID-10, o risco pode ser reduzido com mais unidades em cada conjunto espelhado. por exemplo. um drive de 6 RAID-10 pode ser configurado como + b, c + d, e + f (três pares espelhados, capacidade total = número de drives / 2) ou a + b + c e d + e + f (dois espelhados trigêmeos, capacidade total = número de unidades / 3)
Assim, todos os níveis de RAID têm modos de falha que podem resultar em perda de dados catastrófica.
A principal coisa a lembrar de tudo isso é:
O RAID NÃO É UM SUBSTITUTO DE BACKUPS REGULARES