!!!!! UM !!!!!
Faça um de cada vez, sério, cara, não pense em fazer isso de outra maneira, ok.
Qualquer outra coisa testará suas habilidades completas de restauração do sistema.
Temos um RAID-6 de 16 unidades que possui três unidades problemáticas. Dois já estão mortos e o terceiro está dando avisos SMART. (Não importa como ficou em um estado tão ruim.)
Obviamente, queremos substituir os drives mortos antes do que ainda está funcionando, mas é melhor:
substitua uma unidade morta, deixe a reconstrução RAID, substitua a outra e deixe-a reconstruir novamente; ou
substitua as duas unidades de uma vez e deixe-as reconstruir em paralelo?
Por outras palavras, voltaremos a um estado de redundância mais rápido reintroduzindo uma unidade ou duas? A reconstrução de duas unidades em paralelo diminui o processo de reconstrução?
Caso seja importante, o controlador é um 3ware 9650SE-16ML.
Você tem backups bons e recentes? Se não acha que pode obtê-los em tempo razoável?
Eu honestamente estaria mais preocupado em fazer o drive offline ficar desabilitado durante uma reconstrução do que em qualquer outra coisa. Se você já estiver jogando erros da SMART, estará mais do que na metade do caminho.
Minha sugestão seria confirmar seus backups e reconstruir um drive de cada vez para tentar recuperar um estado em que você possa substituir o que está lançando erros SMART (unidades inativas primeiro, erros de software por último).
Se você não tem backups, é uma porcaria: o backup pode criar erros suaves suficientes para marcar a unidade marginal como falha, como pode tentar fazer uma reconstrução.
Meus 0,02. $
Como o servidor já está off-line, execute o ddrescue na unidade que está prestes a falhar, para cloná-lo em outra unidade sã.
Em seguida, insira a nova unidade sã na matriz. Se a clonagem for bem-sucedida, você evitará o risco de ver essa unidade falhar durante duas reconstruções.
Tags hard-drive raid 3ware replace