Hoje pela manhã eu fui ao escritório para descobrir que duas das unidades de um controlador RAID-6, 3ware 9650SE foram marcadas como degradadas e estavam reconstruindo a matriz. Depois de chegar a cerca de 4%, ele obteve erros de ECC em uma terceira unidade (isso pode ter acontecido quando tentei acessar o sistema de arquivos neste RAID e recebi erros de E / S do controlador). Agora estou nesse estado:
> /c2/u1 show
Unit UnitType Status %RCmpl %V/I/M Port Stripe Size(GB)
------------------------------------------------------------------------
u1 RAID-6 REBUILDING 4%(A) - - 64K 7450.5
u1-0 DISK OK - - p5 - 931.312
u1-1 DISK OK - - p2 - 931.312
u1-2 DISK OK - - p1 - 931.312
u1-3 DISK OK - - p4 - 931.312
u1-4 DISK OK - - p11 - 931.312
u1-5 DISK DEGRADED - - p6 - 931.312
u1-6 DISK OK - - p7 - 931.312
u1-7 DISK DEGRADED - - p3 - 931.312
u1-8 DISK WARNING - - p9 - 931.312
u1-9 DISK OK - - p10 - 931.312
u1/v0 Volume - - - - - 7450.5
Examinando os dados SMART nas três unidades em questão, os dois que estão DEGRADED estão em boa forma (PASSED sem qualquer erro Current_Pending_Sector ou Offline_Uncorrectable), mas a unidade listada como WARNING possui 24 setores incorrigíveis.
E a "reconstrução" ficou em 4% por dez horas agora.
Então:
Como faço para começar a reconstruir? Esse controlador em particular não parece suportar /c2/u1 resume rebuild
, e o único comando de reconstrução que parece ser uma opção é aquele que deseja saber qual disco adicionar ( /c2/u1 start rebuild disk=<p:-p...> [ignoreECC]
de acordo com a ajuda). Eu tenho duas hot spares no servidor, e estou feliz em engajá-las, mas não entendo o que ela faria com essa informação no estado atual em que está.
Posso retirar a unidade que está comprovadamente falhando (a unidade WARNING), quando tenho duas unidades DEGRADED em um RAID-6? Parece-me que o melhor cenário seria puxar o drive WARNING e dizer para ele usar uma das minhas peças quentes na reconstrução. Mas não matarei a coisa puxando uma "boa" unidade em um RAID-6 com duas unidades DEGRADED?
Por fim, vi em outros posts uma referência a um erro grave nesse controlador que faz com que os discos bons sejam marcados como ruins e que a atualização do firmware possa ajudar. Está piscando o firmware uma operação arriscada, dada a situação? É provável que ajude ou prejudique a reconstrução de um RAID de 4%? Estou experimentando esse bug em ação?
O conselho fora do espiritual seria muito apreciado. Obrigado.