DL380 G5, RAID5, ext3, falha de RAID

8

Temos um servidor HP DL380G5 antigo, com 5 discos SCSI de 3,5 GB de 3,5 "em um array RAID5, em um compartimento externo, formatado como um volume lógico com sistema de arquivos ext3, que hospeda 1,2 TB de dados de pacientes clínicos sensíveis. p>

Dois discos mostraram falha preditiva no hpacucli, então substituí um deles primeiro e vi que estava tudo bem, mas não vi que ele também indica "Pronto para reconstrução". Eu totalmente descuidadamente mudei o segundo também, e agora ele diz que o RAID falhou.

Voltei o disco antigo de volta, tentei reinicializar o servidor, mas ele agora me coloca no modo de recuperação durante a inicialização e diz que não consegue encontrar o volume lógico.

Qualquer coisa que eu possa fazer para tentar restaurar isso? Nós não temos um backup, infelizmente. Qualquer ajuda seria realmente apreciada!

Eu estava pensando em retornar AMBOS os discos antigos, há alguma chance de que isso reviva o RAID?

    
por undernaut 16.03.2018 / 12:23

3 respostas

25

Sinto muito. Mas isso é erro do operador.

Você tinha dois discos com falha em um array RAID5 e removeu mais discos do que o array poderia sustentar.

Fazer isso sem nenhum backup é o maior erro.

Você deve entrar em contato com uma empresa de recuperação de dados para tentar recuperar os dados da unidade lógica quebrada.

    
por 16.03.2018 / 13:25
11

Não ligue o sistema novamente. Desligue-o, ligue para um serviço de recuperação de dados. Há vários serviços que permitem a recuperação remota desse tipo de falha. Neste ponto, tudo o que você pode fazer é piorar.

Isso geralmente envolve conectar todas as unidades diretamente a um HBA (não uma placa RAID ou outro controlador!) e iniciar uma imagem específica do Linux para download com ferramentas de gerenciamento remoto. Em seguida, a empresa acessa remotamente o sistema, avalia o status do disco e recupera todos os metadados RAID restantes. Usando software proprietário, eles podem montar novamente um disco RAID virtual (detalhes técnicos: geralmente algo que se conecta ao sistema de mapeamento de dispositivos Linux padrão). Isso expõe o software RAID somente leitura no software (sem acelerador SoC RAID). Os próximos passos são verificar se os dados não estão corrompidos além do uso e clonar o disco virtual em um novo disco para concluir a recuperação dos dados. Depois disso, você pode se preocupar em fazer o sistema voltar a funcionar.

Embora não seja possível nomear nenhum serviço aqui, a maioria deles é fácil de encontrar e para aqueles com serviços remotos (poupando-lhe a ida e volta do envio das unidades RAID + unidade de recuperação para eles e aguardando a recuperação + clone e depois enviá-lo de volta) você obtém o benefício dos dados que nunca saem de suas instalações.

Uma pequena quantidade de boas notícias: contanto que o controlador RAID (ou você) não tenha gravado nenhum dado novo em nenhum dos discos, e o aviso pré-falha não seja um aviso de falha, há praticamente 99,9999% de chance de uma boa equipe de recuperação de dados poder restaurar tudo isso e razoavelmente rápido também.

    
por 17.03.2018 / 01:41
5

Re: restaurando as unidades antigas.

Como o seu RAID está completamente inoperante, você tem pouco a perder com a reinstalação das duas unidades pré-reprovadas.

Instale-os nos compartimentos originais.

Lembre-se de que a pré-falha não falhou totalmente, portanto, há uma boa chance de que eles funcionem por tempo suficiente para resgatar seus dados.

Existe uma chance de que o ataque simplesmente não apareça, e uma pequena chance de o controlador pedir para "resetar" o ataque (escolha NO / CANCEL) e uma pequena chance de o controlador de raid resetar automaticamente o ataque negar qualquer valor adicionado por uma empresa de recuperação de dados.

Portanto, a sua maior prioridade se o RAID aparecer, é retirar os dados. Isso significa ter pelo menos 1,2 TB de espaço disponível e pronto para copiar dados, e uma ferramenta como robocopy ou xcopy32 ou no seu caso de linux rsync pronto para ser executado. Você não quer perder tempo lendo páginas de manual e descobrir a sintaxe se suas unidades estão desperdiçando seus últimos minutos.

Quando seus dados estiverem seguros, recrie o ataque como um raid6 com as novas unidades. Você derrubará 300 GB de capacidade, mas ganhará uma tolerância de duas unidades. Ou adicione uma unidade adicional e considere um RAID10 ao longo de 6 unidades. Ou considere retirar completamente essa máquina; o G5 tem mais de 10 anos e não é mais adequado para tarefas de produção importantes.

E não tente colocar a inicialização, mas também configure uma solução de backup adequada. Haverá uma próxima vez.

    
por 17.03.2018 / 00:09

Tags