Reconstruindo matriz no 3ware 9690SA-8I

2

TL; versão DR

  1. Matriz RAID10 funcionando bem
  2. Reinicie o servidor como parte da manutenção
  3. Matriz inoperável (sem acesso)
  4. Os registros do controlador indicam que uma única unidade está com defeito
  5. Remover unidade e amp; teste - não foram encontrados setores defeituosos
  6. Err no lado da precaução, substitua a unidade por outra boa
  7. O controlador não irá reconstruir a matriz na nova unidade
  8. Mesmo com apenas 1 falha de unidade, o controlador tornou todo o array RAID10 inacessível

E agora a versão longa e detalhada:

Eu tenho uma matriz RAID10 (8x1TB) em uma placa 3ware 9690 em execução em um servidor Ubuntu 1110.

Houve uma atualização do kernel, então agendei uma reinicialização após a qual a matriz ficou inacessível. Eu verifiquei o status de uma unidade morreu na matriz, mas o controlador jogou toda a matriz em um estado 'inoperável' em vez de simplesmente degradado (qual é o objetivo do RAID agora; -).

Depois de tirar a unidade 'dead', eu corri um teste rápido para encontrá-lo completamente funcional sem um setor ruim para ser encontrado.

Eu tento colocar a unidade de volta, mas a matriz ainda marca o disco como degradado (lembrando número de série ou algo assim ??) e a matriz inteira como inoperável ...

Então, eu troco por uma unidade de trabalho conhecida (não a mesma capacidade, mas maior - ainda deve funcionar) e inicio uma reconstrução com a nova unidade como um substituto. Isso falha instantaneamente com o erro "(0x0B: 0x0033): unidade ocupada: falha ao iniciar reconstruir na unidade 0". A unidade não deve estar ocupada, pois não está montada (a placa em si é listada com lshw, mas a matriz que ela fornece não é).

Estou praticamente em um impasse agora, não entendo como posso ter uma única falha de unidade em um RAID10 que torne toda a matriz inacessível, degradada Eu poderia entender, mas inacessível ?? Eu não acho que o controlador esteja com defeito, já que antes da reinicialização ele estava completamente funcional.

> info c0

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-10   INOPERABLE     -       -       256K    3725.25   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            SAMSUNG HD103SJ
p1    OK             u0   931.51 GB SATA  1   -            SAMSUNG HD103SJ
p2    OK             u0   931.51 GB SATA  2   -            SAMSUNG HD103SJ
p3    OK             u0   931.51 GB SATA  3   -            SAMSUNG HD103SJ
p4    OK             u0   931.51 GB SATA  4   -            SAMSUNG HD103SJ
p5    OK             -    1.36 TB   SATA  5   -            ST31500341AS
p6    OK             u0   931.51 GB SATA  6   -            SAMSUNG HD103SJ
p7    OK             u0   931.51 GB SATA  7   -            SAMSUNG HD103SJ

> /c0/u0 start rebuild disk=5

Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy
    
por Tim Jones 28.11.2011 / 00:23

1 resposta

0

Entre em contato com o suporte da LSI e um de seus técnicos de segundo nível, loucos para escrever um script & Hack de firmware para colocar o array em um estado degradado regular.
A partir daí, os negócios eram comuns, para unir um novo disco ao array e reconstruí-lo.

    
por 02.12.2011 / 07:49