Conjunto de volumes RAID6 1280ml da Areca falhou

10

Hoje atingimos algum tipo de pior cenário e estamos abertos a qualquer tipo de boas ideias.

Aqui está nosso problema:

Estamos usando vários servidores de armazenamento dedicados para hospedar nossas máquinas virtuais. Antes de continuar, aqui estão as especificações:

  • Máquina de servidor dedicado
  • Controlador RAID Areca 1280ml, Firmware 1.49
  • 12 HDDs Samsung de 1 TB

Nós configuramos um conjunto RAID6 com 10 discos que contém um volume lógico. Temos duas peças quentes no sistema.

Hoje, um HDD falhou. Isso acontece de tempos em tempos, então nós o substituímos. Após a reconstrução, um segundo disco falhou. Normalmente isso não é divertido. Paramos as operações pesadas de IO para garantir uma reconstrução de RAID estável.

Infelizmente, o disco de peças de reposição falhou durante a reconstrução e a coisa toda parou.

Agora temos a seguinte situação:

  • O controlador diz que o conjunto de raids está sendo reconstruído
  • O controlador diz que o volume falhou

É um sistema RAID 6 e dois discos falharam, portanto, os dados precisam estar intactos, mas não podemos colocar o volume on-line novamente para acessar os dados.

Durante a pesquisa, encontramos os seguintes leads. Eu não sei se eles são bons ou ruins:

  1. Espelhando todos os discos para um segundo conjunto de unidades. Então, teríamos a possibilidade de experimentar coisas diferentes sem perder mais do que já temos.

  2. Tentando reconstruir a matriz no R-Studio. Mas não temos experiência real com o software.

  3. Puxando todas as unidades, reiniciando o sistema, mudando para o BIOS do controlador de areca, reinserindo os HDDs um a um. Algumas pessoas estão dizendo que isso trouxe o sistema online. Alguns estão dizendo que o efeito é zero. Alguns dizem que eles explodiram tudo.

  4. Usando comandos areca não documentados como "rescue" ou "LeVel2ReScUe".

  5. Entrar em contato com um serviço forense de computadores. Mas whoa ... estimativas primárias por telefone ultrapassaram os 20.000 €. É por isso que gentilmente pedimos ajuda. Talvez estejamos sentindo falta do óbvio?

E, claro, temos backups. Mas alguns sistemas perderam uma semana de dados, e é por isso que gostaríamos de colocar o sistema em funcionamento novamente.

Qualquer ajuda, sugestões e perguntas são mais que bem-vindas.

    
por Richard 14.03.2012 / 23:05

2 respostas

2

Acho que a Opção 1. é o seu melhor.

Pegue 12x novos HDDs, 1x novo controlador RAID Tente espelhar (dd if = of =) discos antigos para os novos 1: 1 usando qualquer caixa linux. Construa um novo servidor usando o novo controlador RAID 1x mais os novos HDDs 12x

Tente reconstruir o array no novo servidor. Sucesso? Ótimo. Pare.
Reconstrução falhou? Espelhe os discos antigos para os novos novamente, tente a opção i + 1

    
por 24.10.2012 / 18:59
0

Este é um cenário muito comum, infelizmente. Houve um bom estudo do Google sobre este ano, e acontece que a perda de dados com o RAID pode acontecer durante a reconstrução do array. Isso pode afetar diferentes sistemas RAID com gravidade diferente. Aqui está o cenário RAID6:

  • sua matriz tem 3 dados e 2 discos de paridade.
  • se você perder um disco, tem certeza de que todos os dados são recuperáveis.
  • se você perder dois discos, perderá os dados

Por que isso?

Pense no seguinte: deixe ter alguns dados, assuma primeiro 3 bloco de um arquivo você tem os seguintes blocos de dados: A1 + A2 + A3 e a seguinte paridade: Ap + Ap sentado no hdd1 ... hdd5

Se você perder dois discos entre 1 e 3 você perdeu dados porque os dados não são recuperáveis, você tem 2 paridade e 1 bloco de dados.

Agora, o mesmo cenário com 10 discos pode ser diferente, mas acho que ele é tratado da mesma forma que você divide os dados em 8 blocos e salva a paridade em outras 2 unidades e tem 2 hot-spares. Você conhece os detalhes da configuração do controlador RAID?

Eu começaria a recuperar de um backup externo (eu acho que você tem alguns), e o serviço está de volta tentar recuperar o máximo de dados possível, usando Unix e dd as unidades para imagens e usando-o como dispositivo de loop por exemplo.

link

Você precisa saber que tipo de metadados o controlador RAID usa e, se tiver sorte, ele é suportado em algumas ferramentas como dmraid.

Mas isso não significa que você possa recuperar dados, já que os arquivos são normalmente distribuídos em muitos blocos, e a recuperação provavelmente não retornará nenhum dos seus dados.

Mais sobre o RAID:

link

    
por 05.10.2012 / 07:32