Raid 5 Processo de Recuperação

4

Eu recentemente instalei uma matriz de 4 drives MDRAID 5 de 4TB para espelhamento e um backup online do nosso servidor.

Estou me preparando para uma futura falha de hardware (unidade) e queria atenuar uma falha de recuperação de um URE.

Geralmente, penso no processo de reconstrução de uma matriz:

  1. Remova e substitua a unidade com falha.
  2. Reconstruir matriz

Pelo que entendi, em um array RAID 5 degradado, você ainda pode acessar dados; mas quando a unidade com falha tiver sido substituída e a matriz estiver sendo reconstruída, se uma URE for detectada, a recuperação falhará e os dados na matriz serão imediatamente tornados ilegíveis e irrecuperáveis.

Se meu entendimento estiver correto, não parece prudente recuperar o array até que todos os dados (legíveis) tenham sido duplicados.

Isso me deixa com um processo de:

  1. Duplicar dados da matriz.
  2. Remova e substitua a unidade com falha.
  3. Reconstruir matriz

Existe outro processo que atenua as falhas de reconstrução (além da falha de uma segunda unidade durante a reconstrução)? É seguro reconstruir o array sem duplicar os dados primeiro? As minhas suposições estão erradas, tal como a reconstrução falha no URE, mas os dados ainda estão disponíveis em estado degradado?

    
por Damon 07.08.2017 / 08:47

2 respostas

0

Eu percebi que os UREs são um pouco mais complexos e desconhecidos para a maioria, já que estão relacionados a falhas de matriz.

A conclusão é que os UREs podem fazer com que os arrays falhem, mas não com tanta frequência quanto a matemática nos artigos. Mas o RAID 5 ainda é um array RAID propenso a falhas comparado a todos os outros níveis de RAID.

Então, de volta ao básico, o que estamos mitigando durante uma reconstrução do RAID 5? Estamos tentando recuperar a paridade antes que um segundo disco falhe. ISSO É! Este é um empreendimento necessário, por qualquer meio.

Isso me leva a solidificar minha lista

  1. Duplique dados temporariamente da matriz, a fita é mais barata se a matriz for grande e o espaço da HDD não estiver disponível.
  2. Remova e substitua a unidade com falha.
  3. Crie uma nova matriz com uma nova unidade a partir do zero.
  4. Recarregue arquivos para uma nova matriz da etapa 1.

Isso pressupõe que o array pode ser colocado off-line, o que nem sempre é o caso. No final, porém, alguns descobriram o mesmo que construir um novo array a partir do zero e transferir dados de volta em uma só penada é mais fácil e rápido do que tentar uma reconstrução completa em um grande array multi TB.

Além disso, suspeito que ler os dados e gravar os dados fora da matriz sequencialmente em um estado degradado apenas uma vez reduziria muito as chances de falha de uma segunda unidade antes que os dados fossem duplicados, em comparação com uma reconstrução de thrashing completa. a chance ainda está lá.

No final, é tudo sobre gerenciamento de risco que varia de acordo com a multiplicidade de circunstâncias específicas. No meu caso em particular, geralmente consigo encontrar tempo dentro de uma janela de 24 horas para restaurar minha matriz e, portanto, fazer backup, reconstruir e restaurar novamente a partir do backup novo seria melhor no meu caso.

    
por 30.12.2017 / 21:53
6

Você poderia se preparar para a falha da unidade e para todos os outros problemas implementando o plano 3-2-1 Backup , minha opinião pessoal 3-2-1 deve estar em cada ambiente crítico de negócios.

Seguir 3-2-1 Regra tornará a vida mais fácil, isto obviamente custaria $, mas o resultado deveria valer a pena.

Você pode aprender mais aqui: link

link

    
por 15.08.2017 / 16:59