Como configurar o robusto RAID 6?

2

Talvez eu esteja fazendo tudo errado, mas estou tendo problemas crônicos para gerenciar uma matriz de software RAID6 no CENTOS7.

O sistema tem um par interno de unidades (2x500GB) no RAID1, que até agora tem sido à prova de balas. Eu tenho outras 5 unidades externas (5x1TB) em um gabinete sobre eSATA através de uma placa de expansão eSATA PCIe. Estes são todos em RAID0, que tem sido consistente desde o início. Eu tenho outro gabinete de 5 discos (também 5x1TB, mesma marca / modelo / idade) em uma segunda placa de expansão eSATA PCI (mesma marca / modelo) com cujos discos tentei configurar em RAID6 (4 ativo, 1 de reserva). / p>

Uma primeira falha ocorreu quando a energia foi cortada e uma das unidades não retornou à matriz. Eu acabei de limpar a unidade e sua partição e, em seguida, adicionei-a novamente à matriz. A matriz foi depois de uma reconstrução de volta para a força total e eu fiz uma varredura / atualização / reescrita completa para obter tudo consistente. Ontem à noite, após cerca de 30 GB de gravações, o array cai, três dos quatro drives ativos parecem ter ido embora. Qualquer tentativa de remontar sugere que a matriz não pode começar com apenas uma unidade. Eu posso mdadm --examine todas as unidades participantes e todas elas mostram com êxito o GUID da matriz, a contagem de dispositivos RAID, o nome da matriz, têm uma boa soma de verificação, nível de raid e são mostrados como tendo um estado ativo. Cada um deles mostra no entanto um estado de matriz diferente:

/dev/sdg/   ...A
/dev/sdh/   AAAA
/dev/sdi/   AA.A
/dev/sdj/   .A.A

mdadm --assemble --scan --guid=<guid> produz a mesma resposta que a GUI 'Discos' no CENTOS, ou seja, 'montada a partir de 1 unidade - não é suficiente para iniciar a matriz'.

O que estou fazendo errado ao administrar este array e como faço para recuperação?

Editar: Não consigo ver nenhum registro do / dev / md126 que era o dispositivo, portanto não posso usar nenhuma função que interaja com esse 'nome'.

Atualização: Sem informações adicionais para trabalhar (nenhum registro era legível), tentei o --force como sugerido no comentário. Depois de inicialmente iniciar em um estado 'degradado' com um disco ausente e entrar em 'reconstrução', usei --examine em todas as unidades e uma, / dev / sdh não estava participando 'AA.A'. Eu tentei adicionar a unidade à matriz embora mdadm --add , mas peguei a matriz errada para adicioná-la a: a nova matriz surgiu como / dev / md126 e / dev / md126p1, não sei qual é a diferença, mas é o p1 que parece estar ativo. Cancelei a operação de reconstrução e reiniciei-a novamente com o mesmo comando, incluindo --force o md não apresentou dados. Eu cancelei isso e tentei mais uma vez. Agora os dados estão visíveis novamente na unidade e / dev / sdh está participando ('AAAA'). A unidade está no modo 'recuperando' e parece estar usando todas as quatro unidades.

Felizmente, os dados do array estão salvos, então eu tenho o luxo de ser um pouco arrogante para tentar aprender alguma coisa ..!

    
por J Collins 23.04.2015 / 14:57

1 resposta

1

Quando uma unidade é expulsa de uma matriz RAID, seus metadados não são mais atualizados. Então a unidade que ainda vê todas as unidades como AAAA é geralmente a que foi chutada primeiro. O update time pode refletir isso também.

Então eu suponho que a camada RAID primeiro tenha sido kickada sdh (quando 4 unidades estavam ativas), então sdi (com 3 unidades), sdj (duas unidades) e isso deixa sdg sozinha com apenas uma dirigir.

Se os discos não estiverem com defeito, você pode tentar a sua sorte com --assemble --force . Verifique os tempos de atualização e use as duas unidades mais recentes, adicione novamente as unidades que foram chutadas primeiro e espere que o RAID seja sincronizado novamente.

Você deve verificar seus dmesg / logs do sistema para verificar por que as unidades foram kickadas em primeiro lugar e, em seguida, certifique-se de que isso não aconteça novamente. O RAID de software funciona bem em geral, mas é muito importante ter discos intactos, testar discos regularmente para erros e descartar qualquer problema com seus cabos / controladores / fonte de alimentação.

    
por 23.04.2015 / 15:29