Recuperar de uma matriz RAID Punctured

10

aqui está minha situação.

Eu tenho um servidor Dell com um controlador Dell Perc 7i (Controlador LSI).

Eu tive uma campanha me dando um aviso de previsão de falhas, então liguei para o suporte deles e eles saíram e substituíram a unidade e a matriz se reconstruiu, bastante padrão.

Duas semanas depois, tenho outra unidade me dando o aviso de Falha Prevista. Eu imaginei que talvez fosse um lote ruim de drives ou coincidências, etc. Então, eu entro em contato com o suporte e olho com mais profundidade. Eu percebo que havia blocos ruins em uma das outras unidades que não falharam e os blocos defeituosos foram copiados durante a reconstrução. Então agora eu tenho blocos ruins em todo o lugar e eles estão matando lentamente minha matriz. Eu descobri que isso é chamado de Matriz Perfurada.

Assim, o conselho deles era substituir todas as unidades, reconstruir a matriz e restaurar a partir do backup. Exceto eu tenho tido esse problema por algumas semanas, o que significa que meus backups são ruins ... e se eu restaurar de um backup anterior (um mês atrás), então eu vou estar perdendo cerca de 4 semanas de dados do meu banco de dados que é totalmente inaceitável para o nosso escritório.

Minha pergunta é ... alguém já se recuperou de algo assim sem ter que perder dados ou sem a abordagem toda (jogar tudo pela janela e começar de novo)?

Eu encontrei um link que cobriu o meu cenário, não tenho certeza se ele esclarece a situação: link

Qualquer ajuda ou direção seria apreciada! O que vocês acham?

    
por user72593 22.05.2014 / 18:01

3 respostas

15

Seu sistema que eu suponho ainda está ativo, então a melhor coisa a fazer é fazer um backup imediato , despejar os discos / matriz, reconstruir e restaurar a partir do backup.

Blocos inválidos nem sempre significam que seus backups também são ruins. Se você não teve problemas de desempenho ou arquivos danificados, os backups ainda devem estar completos o suficiente para concluir uma restauração.

Para testar, faça o backup mais recente e examine seus dados mais importantes. Se ainda estiver intacto, você provavelmente terá um bom backup.

Neste ponto, existe um risco envolvido, já que você não pode ter 100% de certeza de que seus backups são bons ou que o backup agora não causará perda de arquivos. No entanto, sua matriz irá eventualmente falhar e forçar uma restauração de qualquer maneira, então esta é sua única opção real.

    
por 22.05.2014 / 18:06
8

Neste exato momento, faça o seguinte:

  • Pare de girar backups ou excluir os antigos para este sistema. Você quer manter todos os backups que você tem atualmente.
  • Faça um backup completo do servidor.

Espero que os discos ainda estejam bons o suficiente para que seus dados estejam intactos e você não encontre problemas para executar o novo backup completo.

Em seguida, descarte esses discos e crie uma nova matriz RAID. Quando estiver pronto, tente restaurar a partir do backup que você acabou de fazer. Com alguma sorte, isso será tudo que você precisa fazer.

Se isso falhar, tente a próxima mais antiga e a próxima mais antiga, etc. Certifique-se de testar a funcionalidade do sistema - só porque ele inicializa, não significa que ele esteja totalmente operacional. Particularmente, teste os bancos de dados por corrupção.

Se você tivesse que restaurar o sistema inteiro a partir de um backup mais antigo, tudo bem. Faça os backups mais recentes e restaure apenas os arquivos do banco de dados e outros arquivos importantes. Teste-os para garantir que funcionem corretamente. Novamente, se isso falhar, tente o próximo mais antigo.

Usar esse processo minimiza a perda de dados.

    
por 22.05.2014 / 18:33
4

As respostas fornecidas por Grant e Nathan C são ótimas no que diz respeito a como você deve proceder no manuseio de backups / restauração e no endereçamento da integridade de dados.

Veja alguns detalhes mais claros sobre como lidar com o conjunto de RAID quando chega a hora de recriar o disco virtual e restaurar a partir do backup:

  • Verifique se você tem um bom backup dos dados
  • Exclua o disco virtual existente; Todos os discos devem aparecer em um estado "pronto" depois
  • Recrie um novo disco virtual; Configurações recomendadas: leitura antecipada adaptável, write-back e cache de disco desativado
  • Você deve ter um disco virtual on-line com uma inicialização em segundo plano em andamento.
  • Prossiga com a restauração do backup; Inicialmente, a inicialização em segundo plano gira em torno de 600 GB / h para fusos de 7,2 K, portanto dê ao init uma vantagem inicial se a restauração de backup puder ser executada mais rapidamente do que isso; caso contrário, o software de backup poderá ter alguns problemas com a latência de gravação quando nenhum novo espaço estiver disponível imediatamente. restaurar.

Nota : Se você estiver usando o RAID5, você deve SERIAMENTE considerar o uso do RAID6 desta vez. O RAID5 não é confiável para dados críticos de negócios de acordo com as práticas recomendadas padrão do setor atual em um array desse tamanho. Os discos SATA / NL-SAS de grande capacidade também apresentam um risco maior de encontrar um URE durante as recriações, o que resulta em uma perfuração como a que você está lidando. O RAID6 reduz enormemente esse risco e é geralmente aceitável para dados críticos com capacidades de drives disponíveis atualmente.

    
por 22.05.2014 / 20:12