3ware: Reduza a energia ao tentar reconstruir

1

Eu tenho um RAID bus controller: 3ware Inc 9550SX SATA-II RAID PCI-X com quatro discos, com o seguinte estado atual:

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    REBUILD-PAUSED 0%      -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     OK               u0     465.76 GB   976773168     WD-WCAS87223554
p2     DEGRADED         u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

A reconstrução está ativada. Às vezes ele começa (Status: REBUILDING ), aparentemente faz as coisas por um minuto ou mais, e então volta para REBUILD-PAUSED . O %RCmpl nunca ultrapassa 0%. Log ( /var/log/messages ) diz a cada cinco minutos:

Dec  5 23:41:57 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x000B): Rebuild started:unit=0.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x003A): Drive power on reset detected:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  5 23:42:30 somelinux kernel: 3w-9xxx: scsi1: AEN: INFO (0x04:0x001A): Drive inserted:port=1.

Sou novo neste hardware e herdei a máquina e a tarefa de manutenção. O que isso poderia indicar? Quão grande é o problema que tenho? O que devo fazer?

Novos eventos

Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current<4>3w-9xxx: scsi1: AEN: WARNING (0x04:0x0019): Drive removed:port=1.
Dec  6 00:25:42 somelinux kernel: : sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:42 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:25:42 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:25:42 somelinux kernel: end_request: I/O error, dev sdc, sector 144738143
Dec  6 00:25:43 somelinux kernel: 3w-9xxx: scsi1: AEN: ERROR (0x04:0x001E): Unit inoperable:unit=0.
Dec  6 00:28:02 somelinux kernel: sd 1:0:0:0: Device not ready: <6>: Current: sense key=0x2
Dec  6 00:28:02 somelinux kernel: ASC=0x4 ASCQ=0x0
Dec  6 00:28:02 somelinux kernel: end_request: I/O error, dev sdc, sector 104927621
Dec  6 00:28:02 somelinux kernel: xfs_force_shutdown(dm-0,0x2) called from line 956 of file fs/xfs/xfs_log.c.  Return address = 0xc028860d

... e ...

tw_cli> /c1 show

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF
u1    SPARE     OK             -       -       -       465.753   -      OFF

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u0     465.76 GB   976773168     WD-WCAS87320631
p1     NOT-PRESENT      -      -           -             -
p2     OK               u0     465.76 GB   976773168     WD-WCAS87159042
p3     OK               u1     465.76 GB   976773168     WD-WMAYP6812676
p4     NOT-PRESENT      -      -           -             -
p5     NOT-PRESENT      -      -           -             -
p6     NOT-PRESENT      -      -           -             -
p7     NOT-PRESENT      -      -           -             -

Parece que p1 está muito mal.

Folow up

Sempre funcionou por alguns minutos / horas antes de se tornar INOPERÁVEL. Dessa forma, consegui fazer um backup dos dados. Eu tive muita sorte. Aprendi que preciso prestar mais atenção, caso contrário, não faz sentido ter armazenamento redundante.

Excluiu o antigo array. Removido o disco defeituoso. Definiu um novo array com 3 bons membros. Sistemas de arquivos recriados. Backups restaurados. Final feliz.

    
por Notinlist 06.12.2013 / 00:03

1 resposta

2

Prepare-se.

Seu RAID 5 está morto:

u0    RAID-5    INOPERABLE     -       -       256K    931.303   OFF    OFF

Esse é também o motivo dos erros SCSI / I / O. Seu RAID 5 não é 4 discos; é apenas 3. O quarto disco, p3, está em sua própria unidade, u1, não a unidade primária, u0.

A julgar pelo texto que você forneceu, eis o que provavelmente aconteceu:

  1. p2 está degradado e você tentou reconstruir
  2. Durante isso, p1 parou de ser detectado
  3. Falha no RAID 5, pois 2 unidades não estavam funcionando / detectadas

O fato de que p2 agora está mostrando "OK" é irrelevante em relação ao status do RAID 5.

Espero que este servidor tenha backups, porque é improvável que você consiga recuperar isso. Eu não acredito que o tw_cli também ofereça suporte a um array online. Embora o seguinte não ajude você a recuperar dados dessa matriz com falha, veja o que recomendo:

  1. Substitua a unidade com falha / ausente (p1)
  2. Como o cartão não suporta o RAID 6, não podemos usá-lo (recomendado para discos grandes), então teremos que ir com o RAID 10. Recriar com o RAID 10, criar as partições, formatar / montar e atualizar / etc / fstab.
  3. Restaurar a partir dos backups, espero que você tenha

Quem configurou isso como um RAID 5 com um sobressalente (também não foi configurado corretamente) não foi o mais brilhante.

    
por 06.12.2013 / 04:52

Tags