Reconstruindo a matriz RAID 10 com duas unidades com falha

3

Tenho servidor dedicado com 4 discos rígidos em configuração de hardware RAID 10 e funcionou bem até ontem, quando começou a travar aleatoriamente em alguns minutos. Eu entrei em contato com meu data center e eles executam um diagnóstico do sistema e descobriram que um dos meus discos rígidos na matriz RAID 10 estava com defeito, eles substituíram a unidade e ela começou a se reconstruir automaticamente. Em seguida, eles inicializaram o sistema no modo normal e estavam funcionando normalmente por 15 minutos quando começaram a travar novamente. Fiz alguns diagnósticos por conta própria e quando verifiquei o estado das unidades físicas com:

arcconf GETCONFIG 1 PD

Eu notei que o HDD 0,0 tem erros SMART, eu relatei isso ao meu CD e eles confirmaram isso e pediram para trocar esse dispositivo por um novo, mas eles me sugeriram fazer backup dos meus dados (~ 2TB ) porque é muito provável que perca meus dados. Eu fiz backup dos meus dados e eles substituíram o segundo HDD. Após a inicialização, eles precisavam forçar o início do controlador RAID e o sistema inicializar no modo de recuperação. Acho que eles trocaram a unidade errada pela primeira vez porque é altamente improvável que duas unidades falhem ao mesmo tempo em conjuntos de espelhos diferentes, mas essa é outra história para contar… Meu problema é que o segundo HDD substituído não está se reconstruindo. Eu tentei limpar os metadados para essa unidade com:

arcconf TASK START 1 DEVICE 0 0 CLEAR

e definir o estado da unidade como hot spare com

arcconf SETSTATE 1 DEVICE 0 0 HSP LOGICALDRIVE 0

para começar o processo de reconstrução automaticamente, mas sem sucesso.

Os dados da minha matriz RAID 10 são 4 HDDs HDD 0,0 e HDD 0,1 estão no conjunto de espelhos e HDD 0,2 e HDD 0,3 em outro.

A saída do estado do dispositivo lógico é: arcconf getconfig 1 ld

link

E a saída do estado da unidade física é: arcconf GETCONFIG 1 PD

link

Status do controlador:

link

Minhas perguntas são: há alguma maneira de fazer com que a unidade se reconstrua sem perder dados.

Obrigado.

    
por SkechBoy 14.12.2012 / 09:54

1 resposta

1

Acho que a resposta pode ser que o controlador adaptec reconstruirá apenas 1 unidade por vez.

Eu tenho um controlador Adaptec 5805Z em um RAID 10 com 4 grupos. Acabamos de substituir 1 unidade de cada grupo e apenas 1 grupo está reconstruindo no momento. Eu sei que todas as unidades de substituição são boas porque nós rodamos os badblocks nelas, além disso, elas são definitivamente maiores do que as unidades que estão substituindo.

@SkechBoy, você sabe se a sua primeira reconstrução de grupo terminou antes da segunda começar?

Atualização: Acabou de receber a confirmação da Adaptec de que "o controlador geralmente reconstrói um segmento de cada vez". Em outras palavras, você precisa esperar que o primeiro grupo de RAID seja reconstruído antes de começar a reconstruir o segundo.

    
por 14.12.2012 / 19:20