RAID5 falha de 2 discos - que passos dar?

3

Eu tenho um array RAID5 de 6 discos em um servidor gentoo. O mdadm está relatando que dois dos discos falharam. No caso de os discos terem realmente desaparecido, estou preparado para enviar as unidades para os profissionais para recuperação, mas não quero fazer isso a menos que seja necessário, e não quero que minhas próprias tentativas de recuperação sejam feitas. vida mais difícil para eles. Dito isso, se eu puder colocar o array de volta em funcionamento, prefiro fazer isso.

1) Que medidas devo tomar imediatamente para reduzir o risco de perda de dados?

2) Qual é a melhor maneira de saber se as unidades estão realmente mortas ou foram marcadas como errôneas?

3) Existe algum risco em reiniciar a máquina e / ou tentar reconstruir o array eu mesmo?

    
por HopelessN00b 23.12.2009 / 23:06

7 respostas

13

Como é apropriado, isso deve vir logo após a "Semana de Apreciação do Backup" (ou seja lá como ela for chamada).

O problema de tentar fazer algo sozinho é que você está apenas aumentando a quantidade de degradação nas unidades sempre que as estiver executando. Decida agora se você vai enviá-lo para os profissionais e, em caso afirmativo, basta fazê-lo. Presumivelmente, se esses dados são importantes o suficiente para gastar milhares de dólares se recuperando, é provavelmente coisas que você quer mais cedo ou mais tarde, então apenas envie agora.

Ah, e backups. Faça bons backups. O RAID não é um backup, e o RAID 5 mal conta como redundância nos dias de hoje, dado o tamanho das unidades (e, portanto, o tempo necessário para reconstruir uma grande matriz).

    
por 23.12.2009 / 23:12
4

Resposta curta: crie uma matriz não RAID 5 que possa conter os dados e depois restaurar a partir do backup.

Se você não tiver um backup "Você está fazendo errado"

Versão mais longa:

Considere o RAID 10. Se o espaço for uma preocupação, compre mais discos e vá para o RAID 6 se o seu controlador o suportar ou comprar ainda mais discos e fizer o RAID 10 mesmo assim. Construa sua (s) matriz (s) RAID e restaure seus dados a partir do último backup.

    
por 24.12.2009 / 00:04
3

Você pode encontrar informações úteis usando o Reconstrutor RAID , que é somente leitura e fará uma varredura nas unidades para determinar o que está acontecendo com eles. Você obviamente precisará conectar as unidades a outro sistema, não através de um controlador RAID. Avaliar seus discos não lhe custará nada.

    
por 24.12.2009 / 00:24
3

Cry. Nós tivemos isso acontecer duas vezes em duas semanas. Nossas unidades de AC estavam no fritz e os monitores de temperatura não relataram sobre ele. O calor matou muitos dos nossos impulsos.

Amusingly, nosso novo centro de dados, estava se preparando para uma expansão, e o grupo de instalações alegres disse, não se preocupe, você está correndo a 46% da capacidade.

Mais tarde, descobrimos que eles escreveram os tamanhos das unidades de AC incorretos, por um fator de 2 e estávamos, na verdade, com 97% da capacidade. Oopsy.

Em seguida, adicionamos uma pilha inteira de novos servidores, pensando que tínhamos muito espaço de buffer na capacidade de CA.

Assim, tivemos problemas de calor por meses, pois precisávamos deles para obter compressores maiores para o ar condicionado, que estava programado para levar 18 meses.

O que mais é novo no mundo?

    
por 23.12.2009 / 23:09
2

a resposta do womble abrange as piores cenário, mas há uma boa chance de que um ou ambos os discos estejam perfeitamente bem. Se você quiser tentar recuperar os dados sozinho, recomendo apenas tentar usar uma das unidades com falha na sua tentativa de recuperação e defina a outra unidade para o caso de você precisar enviar o RAID5 inteiro para uma empresa de recuperação de dados. .

Com cartões SATA baratos, não era incomum para nós perdermos duas unidades de nosso RAID5 de uma só vez, embora apenas uma delas estivesse com defeito. Também tivemos algumas ocasiões em que nenhuma das duas unidades foi ruim e não pudemos identificar com precisão a causa das falhas do RAID5. Desde então, mudamos para unidades maiores em uma configuração RAID1 e estamos pensando em mudar para o ZFS em um raidz2 ou raidz3.

Como alguém mencionou, o serviço de recuperação não poderá recuperar dados apenas das unidades com falha. Você terá que enviar todos os discos do seu RAID5.

Você deve estar ciente de que há vários níveis de falha. Se houver danos físicos graves devido a uma falha na cabeça, sua única esperança é um serviço de recuperação, mas as chances são de que seus dados tenham desaparecido.

Se você não puder justificar o custo de enviar todas as unidades para um serviço de recuperação de dados, poderá duplicar o conteúdo da unidade em uma unidade boa usando dd ou dd_rescue e, em seguida, executar diagnósticos adicionais na unidade com falha remonte seu RAID e execute um backup completo. Infelizmente, você pode não conseguir determinar se os arquivos estão corretos ou se estão corrompidos, a menos que você tenha uma lista recente de somas de verificação ou backup existente para compará-los.

Se você puder determinar que o Setor 0 está ruim (geralmente indicado por um clique repetido após ligar), você está desesperadamente sem sorte. Um agente de recuperação do OnTrack me disse que eles não podiam recuperar nenhum dado de uma unidade que eu enviei, porque eles absolutamente precisam ser capazes de escrever para o Setor 0. Fiquei um pouco irritado, porque eu já havia determinado que o Setor 0 estava ruim antes de eu enviou a unidade, e Ontrack não foi direto com suas capacidades.

Você pode saber se os discos foram erroneamente marcados como com falha, revisando os logs do sistema e / ou usando o smartctl (a partir do smartmontools ) para visualizar as informações de diagnóstico SMART armazenadas nas unidades. Se smartmontools relatar uma boa integridade da unidade e você não tiver nenhum setor realocado (em "contagem realocada do setor"), sua unidade pode estar bem e você pode tentar remontar o RAID e fazer o backup.

Para o futuro, você também pode querer considerar a configuração de uma caixa do OpenSolaris com o ZFS no raidz2 ou no raidz3. Eles lhe darão paridade dupla ou tripla, respectivamente, permitindo que você perca 2 unidades (raidz2) ou 3 (raidz3) antes de perder seus dados. Além disso, o ZFS verifica tudo, para que seu sistema de arquivos não fique propenso a corrupção silenciosa de dados, como acontece com outras configurações de disco único ou RAID.

Ter pelo menos paridade dupla em qualquer configuração de RAID é desejável, porque você ainda tem redundância enquanto está no processo de substituir e reconstruir o primeiro disco com falha. (Claro, você não deve esperar até que 2 discos falhem antes de substituir o primeiro disco com falha.)

    
por 24.12.2009 / 00:47
1

Reduza o risco de perda de dados? Provavelmente é tarde demais para isso.

No que diz respeito ao risco de inicializar a máquina, se a matriz RAID estiver realmente morta, a reinicialização da máquina não vai piorar as coisas. Se não for tão ruim quanto parece inicialmente e o servidor inicializar e se a matriz RAID e seus dados estiverem acessíveis, minha sugestão seria executar um backup completo o mais rápido possível e entrar em contato com o fornecedor do servidor \ armazenamento para obter informações sobre a situação. / p>     

por 24.12.2009 / 00:51
1

Você provavelmente já enviou as unidades embora, mas eu perguntarei de qualquer maneira: quais discos de marca e modelo você está usando?

Eu pergunto porque qualquer disco Western Digital que não seja um modelo RE (Raid Edition) tem um capricho que significa que os controladores RAID tendem a jogá-los fora da matriz, mesmo que a unidade ainda esteja intacta.

Na página WDC RE3 : "Recuperação de erro limitada por tempo (TLER) específica do RAID - Evita a falha de unidade causada pelo processos estendidos de recuperação de erros do disco rígido comuns às unidades de desktop. "

Basicamente, se a unidade tiver algum erro interno (não necessariamente fatal em termos de dados), as unidades não-RE podem passar muito tempo lidando com isso antes de retornar um resultado. Muitos controladores RAID vêem a unidade demorando muito para responder e marcá-la mal. O "recurso" TLER nas unidades RE basicamente reduz o tempo limite a um nível aceitável para as placas RAID.

Não sei ao certo por que isso parece específico ao WDC - não vi os mesmos problemas com variantes de desktop de outros fabricantes. Eu definitivamente vi e ouvi falar de outras pessoas tendo problemas com unidades de desktop WDC sendo lançados aleatoriamente de matrizes, apenas para testar bem e reconstruir bem.

Se suas unidades forem unidades de área de trabalho WDC, há uma boa chance de que isso tenha causado sua falha, o que significa que os dados estavam intactos. Isso pode não facilitar a recuperação dos dados, é claro:)

    
por 14.01.2010 / 21:32

Tags