3Ware 9650SE RAID-6, duas unidades degradadas, uma ECC, reconstruída presa

5

Hoje pela manhã eu fui ao escritório para descobrir que duas das unidades de um controlador RAID-6, 3ware 9650SE foram marcadas como degradadas e estavam reconstruindo a matriz. Depois de chegar a cerca de 4%, ele obteve erros de ECC em uma terceira unidade (isso pode ter acontecido quando tentei acessar o sistema de arquivos neste RAID e recebi erros de E / S do controlador). Agora estou nesse estado:

> /c2/u1 show

Unit     UnitType  Status         %RCmpl  %V/I/M  Port  Stripe  Size(GB)
------------------------------------------------------------------------
u1       RAID-6    REBUILDING     4%(A)   -       -     64K     7450.5    
u1-0     DISK      OK             -       -       p5    -       931.312   
u1-1     DISK      OK             -       -       p2    -       931.312   
u1-2     DISK      OK             -       -       p1    -       931.312   
u1-3     DISK      OK             -       -       p4    -       931.312   
u1-4     DISK      OK             -       -       p11   -       931.312   
u1-5     DISK      DEGRADED       -       -       p6    -       931.312   
u1-6     DISK      OK             -       -       p7    -       931.312   
u1-7     DISK      DEGRADED       -       -       p3    -       931.312   
u1-8     DISK      WARNING        -       -       p9    -       931.312   
u1-9     DISK      OK             -       -       p10   -       931.312   
u1/v0    Volume    -              -       -       -     -       7450.5    

Examinando os dados SMART nas três unidades em questão, os dois que estão DEGRADED estão em boa forma (PASSED sem qualquer erro Current_Pending_Sector ou Offline_Uncorrectable), mas a unidade listada como WARNING possui 24 setores incorrigíveis.

E a "reconstrução" ficou em 4% por dez horas agora.

Então:

Como faço para começar a reconstruir? Esse controlador em particular não parece suportar /c2/u1 resume rebuild , e o único comando de reconstrução que parece ser uma opção é aquele que deseja saber qual disco adicionar ( /c2/u1 start rebuild disk=<p:-p...> [ignoreECC] de acordo com a ajuda). Eu tenho duas hot spares no servidor, e estou feliz em engajá-las, mas não entendo o que ela faria com essa informação no estado atual em que está.

Posso retirar a unidade que está comprovadamente falhando (a unidade WARNING), quando tenho duas unidades DEGRADED em um RAID-6? Parece-me que o melhor cenário seria puxar o drive WARNING e dizer para ele usar uma das minhas peças quentes na reconstrução. Mas não matarei a coisa puxando uma "boa" unidade em um RAID-6 com duas unidades DEGRADED?

Por fim, vi em outros posts uma referência a um erro grave nesse controlador que faz com que os discos bons sejam marcados como ruins e que a atualização do firmware possa ajudar. Está piscando o firmware uma operação arriscada, dada a situação? É provável que ajude ou prejudique a reconstrução de um RAID de 4%? Estou experimentando esse bug em ação?

O conselho fora do espiritual seria muito apreciado. Obrigado.

    
por cswingle 20.06.2012 / 03:10

1 resposta

4

Eu consegui recuperar o RAID emitindo o seguinte comando em tw_cli sem puxar nenhuma unidade ou reinicializar o sistema:

/c2/u1 set ignoreECC=on

A reconstrução não prosseguiu imediatamente, mas às 2 da manhã da manhã seguinte à minha alteração, a reconstrução começou e, cerca de 6 horas depois, estava concluída. A unidade com erros de ECC tinha 24 setores defeituosos que foram sobrescritos e realocados pelo inversor (de acordo com os dados do SMART). O sistema de arquivos parece intacto, mas não ficarei surpreso se eu acertar erros quando chegar a qualquer informação que estivesse nesses setores.

De qualquer forma, estou muito melhor do que estava antes e provavelmente recuperarei a maioria dos dados. Quando tiver conseguido o que puder, sairei da unidade que está falhando e a reconstituirei em uma peça de reposição.

    
por 21.06.2012 / 18:45