TL; versão DR
- Matriz RAID10 funcionando bem
- Reinicie o servidor como parte da manutenção
- Matriz inoperável (sem acesso)
- Os registros do controlador indicam que uma única unidade está com defeito
- Remover unidade e amp; teste - não foram encontrados setores defeituosos
- Err no lado da precaução, substitua a unidade por outra boa
- O controlador não irá reconstruir a matriz na nova unidade
- Mesmo com apenas 1 falha de unidade, o controlador tornou todo o array RAID10 inacessível
E agora a versão longa e detalhada:
Eu tenho uma matriz RAID10 (8x1TB) em uma placa 3ware 9690 em execução em um servidor Ubuntu 1110.
Houve uma atualização do kernel, então agendei uma reinicialização após a qual a matriz ficou inacessível. Eu verifiquei o status de uma unidade morreu na matriz, mas o controlador jogou toda a matriz em um estado 'inoperável' em vez de simplesmente degradado (qual é o objetivo do RAID agora; -).
Depois de tirar a unidade 'dead', eu corri um teste rápido para encontrá-lo completamente funcional sem um setor ruim para ser encontrado.
Eu tento colocar a unidade de volta, mas a matriz ainda marca o disco como degradado (lembrando número de série ou algo assim ??) e a matriz inteira como inoperável ...
Então, eu troco por uma unidade de trabalho conhecida (não a mesma capacidade, mas maior - ainda deve funcionar) e inicio uma reconstrução com a nova unidade como um substituto. Isso falha instantaneamente com o erro "(0x0B: 0x0033): unidade ocupada: falha ao iniciar reconstruir na unidade 0". A unidade não deve estar ocupada, pois não está montada (a placa em si é listada com lshw, mas a matriz que ela fornece não é).
Estou praticamente em um impasse agora, não entendo como posso ter uma única falha de unidade em um RAID10 que torne toda a matriz inacessível, degradada Eu poderia entender, mas inacessível ?? Eu não acho que o controlador esteja com defeito, já que antes da reinicialização ele estava completamente funcional.
> info c0
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ
p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ
p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ
p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ
p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ
p5 OK - 1.36 TB SATA 5 - ST31500341AS
p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ
p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ
> /c0/u0 start rebuild disk=5
Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy