RAID5 Problemas de matriz - copie os dados ou substitua a unidade primeiro

1

Eu herdei uma situação crítica da seguinte forma.

  • 2 x sistemas de armazenamento RAID5 de 16 discos (um contendo dados mestre, um segurando backups)
  • O sistema de backup não tinha monitoramento e dois discos falharam então todos os dados são perdidos - não é um grande problema
  • O sistema mestre está exibindo dois discos com erros de mídia, um mantendo-se estável por volta de 30 e o outro em cerca de 2.000, mas crescendo lentamente (foi 2.100 após uma semana ou mais)

Existem planos de longo prazo para usar melhor armazenamento, usar sobressalentes, implementar melhor monitoramento, configurar espelhamento, backups etc. etc. etc. mas a necessidade imediata é proteger os dados mestre, pois é crucial para o negócios, mas está sentado em uma matriz RAID5 com dois discos mostrando erros

Basicamente, reduzimos as opções para um dos

Opção 1

  • Troque o disco com 2.000 erros de mídia e deixe a matriz RAID5 ser reconstruída
  • Depois de concluído, troque o outro disco por erros de mídia

A principal preocupação com isso é que, enquanto o array está sendo reconstruído (24-48 horas?), não há redundância zero no sistema e qualquer falha no disco significaria perda de todos os dados.

Opção 2

  • Deixe a matriz RAID5 como está e copie os dados em uma nova matriz de armazenamento

A principal preocupação com isso é que ele demorará muito mais do que a reconstrução do RAID, já que o sistema de arquivos tem centenas de milhões de pequenos arquivos para que a cópia leve quase um mês para ser concluída sem afetar o site que está usando os arquivos.

Eu estaria interessado em visões sobre qual abordagem você tomaria e por quê? Os erros de mídia deste nível são preocupantes? O nível de crescimento nos erros de mídia é preocupante?

    
por Phil 19.01.2012 / 14:17

1 resposta

6

Sim, eu me preocupo e, dada a sua situação, eu coloco outro sistema e faço um backup o mais rápido possível, já que qualquer tentativa de reconstrução pode resultar na perda de tudo.

A parte divertida do RAID 5 é que você pode ter um URE em outro drive mostrando atualmente como ok, então mesmo os discos que você acha que estão funcionando não estão. Daí o seu "erro de reconstrução".

Instale um sistema para copiar seus dados e comece a fazer o backup desses arquivos o mais rápido possível. Em seguida, preocupe-se em reconstruir o servidor.

... embora, pessoalmente, uma vez que você tenha o backup instalado e saiba que é bom, eu mudaria o seu servidor inteiramente então para algo com RAID 10 ou 6, comece de novo ...

    
por 19.01.2012 / 14:26