Discos com falha na matriz RAID - sugestões de estratégia necessárias

1

Eu tenho um array RAID 5 de software baseado em Linux. A SMART acaba de começar a me enviar e-mails reclamando que um dos cinco discos tem uma Contagem do setor pendente atual de 9 e também uma contagem incorreta off-line de 9. Já fiz muito do Google-ing e o consenso parece ser que se eu escreva os setores com zeros, o disco os rematará e tudo ficará bem.

Eu queria rastrear quais arquivos foram afetados, mas tenho dificuldade em fazer o mapeamento, pois tenho 5 discos no RAID 5 com a criptografia LUKS no topo e, finalmente, o LVM em cima disso. Nenhuma das pesquisas que fiz me ajudou a superar esse emaranhado.

No final, meu plano era simplesmente reprovar a unidade e adicioná-la novamente para fazer a matriz reconstruir.

Antes de fazer isso, fiz testes "longos" no outro disco da matriz. Todos foram perfeitos para além de um que teve uma contagem Reallocated Sector de 82,82,36,764.

Portanto, 2 de 5 unidades apresentam problemas.

Neste ponto, estou um pouco confuso quanto à melhor abordagem para tentar eliminar esses erros, se for possível.

Alguém tem algum conselho? Fico feliz em substituir as unidades com falha quando necessário, mas gostaria de tentar obter os dados corretamente primeiro.

    
por Tony Rogers 17.01.2013 / 23:06

2 respostas

3

Este será o processo geral. Veja a página mdraid man e sua própria configuração local para os comandos exatos a serem usados, se você ainda não os conhece.

  1. Ore.

  2. Verifique se o backup está atualizado. Execute-o manualmente, se necessário. Se você não tiver backups , crie um agora .

  3. Falha na unidade com setores pendentes e setores incorrigíveis off-line. A outra unidade com setores realocados viverá um pouco mais, e esperançosamente longa o suficiente para concluir esse processo, mas essa unidade está no ponto em que poderia matar toda a matriz.

  4. Substitua a unidade. No hardware. Particione a nova unidade e adicione-a ao array mdraid.

  5. Reconstrua a matriz e aguarde a reconstrução ser concluída. Nas versões mais recentes do mdraid, a reconstrução será iniciada automaticamente.

  6. Repita o processo com a segunda unidade.

por 17.01.2013 / 23:24
0

Você pode forçar a matriz de verificação e reparo com o comando (como root). Modifique as suas necessidades (insira o nome do array):

echo repair > /sys/block/md0/md/sync_action

É claro que você realmente precisa criar um backup dos dados antes de começar. E você deve considerar substituir o disco rígido danificado por um novo.

Você pode copiar um esquema de partição de disco para disco com um comando como

sfdisk -d /dev/sda | sfdisk /dev/sdb

Claro, verifique os nomes dos discos antes de executar isso. Você não quer apagar uma partição em um bom disco.

A adição de uma partição / disco a uma matriz é descrita no manual de mdadm . Boa sorte.

    
por 29.09.2016 / 13:47