mdadm: substitui o disco em um RAID5 de 4 discos enquanto ele reinicia

2

Estou preparando um servidor com 4 discos montados no software RAID5 durante a instalação da Debian 8. Logo após o sistema ter sido configurado, a SMART detectou um erro Off-line Incorrigível do Setor, então achei que seria uma boa ideia substituir o disco provavelmente com falha enquanto o servidor ainda estava no testbench.

No entanto, um dos dispositivos md ainda está sendo reconstruído, estimando o tempo de conclusão em um mês ou mais.

A questão principal é: é seguro / correto falhar e remover manualmente um disco de um array enquanto ele ainda está sendo sincronizado?

Existem 4 SATAs de 500 GB cada, divididas em 4 partições e montadas em 4 dispositivos RAID5 md [0-3].

O procedimento inteiro parece, eu suponho, assim (eu prefiro fazer um disco hot-swap por curiosidade e no caso de eu ter que fazer isso em um servidor ao vivo algum dia):

  1. falha a unidade em todos os dispositivos mdX
  2. remova a unidade das matrizes
  3. substitua fisicamente a unidade
  4. rescan sata, se necessário, com echo "0 0 0" >/sys/class/scsi_host/host<n>/scan
  5. copia a tabela de partições com o sfdisk, por exemplo %código%
  6. adicionar unidade aos dispositivos mdX correspondentes
por XNRL 30.03.2016 / 11:29

1 resposta

0

Não.

O RAID 5 permite uma falha no disco antes de você perder dados. Se ainda estiver sendo reconstruído, você ainda não terá todos os 4 discos que fazem parte do RAID. Remover um disco antes de ser sincronizado causará perda total de dados.

Se você ainda estiver implantando o servidor, provavelmente seria mais rápido e mais seguro começar tudo de novo com bons discos.

Os tempos de reconstrução mensais são a principal razão pela qual as pessoas não recomendam mais o RAID 5 para discos grandes - a chance de um segundo disco falhar durante esse tempo de ressincronização é muito alta.

    
por 30.03.2016 / 13:54