Quais são as chances de dois discos em um RAID5 saírem no mesmo dia?

1

Eu tenho um Perc H710 configurado como um RAID5 com 4 discos rígidos Seagate 7200rpm conectados de 3TB.

Há dois meses, recebi estas erros falsos que me levaram a acreditar que o meu controlador era ruim .

Substitui o controlador e tudo funcionou bem até alguns dias atrás, quando comecei a experimentar erros semelhantes. As unidades 00 e 03 foram relatadas como com falha, off-line ou ausentes. A Dell me enviou outro controlador RAID (3º), e agora o perc bios diz:

Drive 00 missing
Drive 03 missing

Então peguei as unidades e as examinei individualmente com um utilitário de disco. De fato, a unidade 00 e a unidade 03 possuem setores defeituosos. O utilitário de disco do Linux que eu usei diz que a unidade 00 tem 'alguns setores defeituosos' e a unidade 03 tem 'muitos setores defeituosos'.

Sério? Duas unidades foram lançadas no mesmo dia?

Por outro lado, é possível que uma unidade tenha falhado um tempo atrás e outra falhou porque está continuamente girando, tentando reconstruir a primeira ... ou algo assim?

    
por jsp 24.01.2014 / 22:24

4 respostas

6

Não é possível dizer com precisão quais são as chances de os X drives saírem em quantidade de tempo Y, mas é seguro dizer que as falhas do drive não são completamente independentes, como comumente assumido. Múltiplas falhas de disco no mesmo array dentro da proximidade temporal são, na verdade, uma ocorrência bastante comum.

Há menos de um mês, tivemos 4 unidades com falha no mesmo fim de semana em um dos nossos servidores de produção (mesmo conjunto de RAID), um após o outro. Quase assim que substituímos uma unidade, outra falhou ... acabamos por substituir todas as 7 unidades por segurança.

Um motivo, como você mencionou, é que o processo de reconstrução é intensivo em disco, portanto, há uma chance não trivial de que um disco oscilando à beira de ficar ruim seja empurrado para a borda e falhe, como resultado de o aumento do estresse sob o fornecimento de dados para reconstruir o novo disco.

Outro fator a ser considerado é que todos os membros em uma matriz RAID tendem a estar no mesmo ambiente físico e sujeitos a estresses físicos muito semelhantes (calor, vibração, flutuações de energia, etc.), o que tende a resultar em um maior incidência de tempos de falha semelhantes aos dos discos em diferentes ambientes.

E, se você for como a maioria das pessoas, provavelmente comprou apenas 4 discos idênticos do mesmo local e acabou com 4 discos do mesmo lote, resultando nos 4 discos que compartilham características de fabricação idênticas (quaisquer defeitos ou anomalias durante esse lote de fabricação provavelmente são compartilhados em todos os quatro discos). Tão idênticos discos em um ambiente idêntico ... faz sentido que eles possam compartilhar outras características semelhantes, como quando eles falham.

Finalmente, há o fato de que as falhas de disco não são normalmente distribuídas (como em uma curva de sino). Eles tendem a ter maiores taxas de insucesso no início de suas vidas (mortalidade infantil), e depois de um longo período de tempo, quando se desgastam e morrem devido aos estresses físicos a que foram submetidos, com uma taxa relativamente baixa de falha int no meio (a curva da banheira).

Então, sim, várias falhas de unidade na mesma matriz RAID acontecem com certa regularidade e é uma das razões pelas quais você sempre deseja ter bons backups.

    
por 24.01.2014 / 22:38
5

Na verdade, é bastante comum, e a principal razão é frequentemente aconselhável comprar discos rígidos de diferentes lotes em um único conjunto de RAID. Lotes idênticos geralmente apresentam falhas ou limites idênticos.

Além disso, as falhas nem sempre resultam da simples velhice da unidade, elas também podem ser acionadas por picos de energia mínimos, carga inesperada por alguns minutos, foles de sono idênticos etc. Assim, as chances são obviamente menores do que uma única falha de unidade, mas não essa porcentagem ao quadrado. Além disso, não se esqueça de que uma única falha de disco significa um aumento de carga nos outros 3, porque eles precisam trabalhar juntos para recalcular os dados ausentes. Isso também pode empurrar outro disco pela borda. E sobre o mesmo assunto, uma reconstrução depois de substituir a unidade é uma operação altamente intensiva que toca em todos os setores de todos os discos, o que significa outro tempo arriscado para os discos.

Finalmente, nem sempre é o disco. Certa vez, um conjunto RAID-5 morreu em mim porque o controlador achou que 3 dos 4 discos foram removidos simultaneamente por alguns minutos. Foi a falha do controlador, é claro, mas ainda apareceu em logs como 3 discos morrendo dentro de um minuto após o outro.

    
por 24.01.2014 / 22:31
2

Sim, uma segunda falha devido à tensão do disco de uma reconstrução (e a quantidade bruta de dados sendo lida para uma reconstrução, com probabilidades de erro de leitura relativamente altas em discos modernos densos) é uma das razões que o RAID-5 carrega risco inerente.

Embora pareça que o controlador RAID não marcou conclusivamente o disco como falho, apenas "ausente", este pode ser um caso em que você precisa fazer uso de seus backups.

    
por 24.01.2014 / 22:29
2

O problema provavelmente é que um de seus discos teve um bloqueio ruim por algum tempo, mas passou despercebido, já que nenhum programa leu esse setor.

Então, em outro disco, havia um setor ruim. Um deles foi lido e um controlador removeu esse drive ou tentou reconstruí-lo. Em seguida, ele precisou ler um segundo disco inteiro e encontrou um segundo setor defeituoso em uma segunda unidade. E lá vai o seu RAID.

É por isso que é crucial testar periodicamente seus discos em busca de setores defeituosos - para que eles não passem despercebidos por longos períodos de tempo. Há um utilitário - smartd de smartmontools package - que pode verificar periodicamente todos os discos em busca de blocos ruins enquanto estão inativos. Mas nem todos os controladores permitem o envio de comandos SMART para discos - é por isso que eu prefiro o software RAID.

Os discos corrigirão (remapearão) os setores defeituosos quando eles serão gravados novamente. Então, se você sabe qual setor é ruim ( smartctl -a pode dizer) e você pode verificar qual arquivo está usando este setor, você pode reescrever este arquivo a partir de backups para tornar um disco bom novamente. Mas não tente lê-lo, pois a leitura com falha pode forçar um disco a partir de um array.

    
por 24.01.2014 / 22:51