Por que a reconstrução da matriz RAID não está?

2

Recebi um aviso ontem à noite que uma unidade falhou em um servidor. Cheguei esta manhã para substituí-lo, e estamos recebendo o seguinte. O relatório de configuração do controlador para o array parece bem, com o status incomum Ready for Rebuild .

 ~ # hpacucli controller all show config
Smart Array P400i in Slot 0 (Embedded)    (sn: XXXXXXXX     )
   array A (SAS, Unused Space: 0 MB)
   logicaldrive 1 (341.7 GB, RAID 5, Ready for Rebuild)
   physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SAS, 72 GB, OK)
   physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SAS, 72 GB, OK)
   physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SAS, 72 GB, OK)
   physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SAS, 146 GB, OK)
   physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SAS, 72 GB, OK)
   physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SAS, 72 GB, OK)

A unidade lógica mostra uma dica, Status de inicialização da paridade: Falha na inicialização :

~ # hpacucli controller slot=0 logicaldrive 1 show 
Smart Array P400i in Slot 0 (Embedded)
   array A
      Logical Drive: 1
         Size: 341.7 GB
         Fault Tolerance: RAID 5
         Heads: 255
         Sectors Per Track: 32
         Cylinders: 65535
         Strip Size: 64 KB
         Full Stripe Size: 320 KB
         Status: Ready for Rebuild
         Array Accelerator: Enabled
         Parity Initialization Status: Initialization Failed
         Unique Identifier: XXXXXXX
         Disk Name: /dev/cciss/c0d0
         Mount Points: /boot 191 MB, / 28.6 GB
         OS Status: LOCKED
         Logical Drive Label: XXXXX     6797

Configuração da matriz, se isso ajudar:

 ~ # /usr/sbin/hpacucli ctrl slot=0 show
Smart Array P400i in Slot 0 (Embedded)
   Bus Interface: PCI
   Slot: 0
   Serial Number: XXXXXXXX     
   Cache Serial Number: XXXXXXXX
   RAID 6 (ADG) Status: Enabled
   Controller Status: OK
   Hardware Revision: B
   Firmware Version: 1.18
   Rebuild Priority: Low
   Expand Priority: Low
   Surface Scan Delay: 15 secs
   Surface Scan Mode: Idle
   Post Prompt Timeout: 0 secs
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Drive Write Cache: Disabled
   Total Cache Size: 256 MB
   Total Cache Memory Available: 208 MB
   No-Battery Write Cache: Disabled
   Cache Backup Power Source: Batteries
   Battery/Capacitor Count: 1
   Battery/Capacitor Status: OK
   SATA NCQ Supported: False

Como faço para depurar isso?

Editar:

Todas as unidades individuais aparecem bem:

~ # hpacucli controller all show config detail | grep Status
   RAID 6 (ADG) Status: Enabled
   Controller Status: OK
   Cache Status: OK
   Battery/Capacitor Status: OK
      Status: OK
         Status: Ready for Rebuild
         Parity Initialization Status: Initialization Failed
         OS Status: LOCKED
         Status: OK
         Status: OK
         Status: OK
         Status: OK
         Status: OK
         Status: OK

edit2:

Estou depurando algumas interações adversas entre o hpaducli e o grsec (também o mp-SSH e o Ubuntu), mas nós temos os resultados do hpacucli diag disponíveis e enterrados nos Sinalizadores de Status da Unidade Lógica é Rebuild Aborted From Read Error . O que me confunde aqui é como um erro de leitura durante a reconstrução não resulta em marcar uma das falhas preditivas dos drives, ou pior, mas faz com que uma reconstrução pare.

    
por jldugger 13.08.2014 / 20:43

2 respostas

3

Ready for Rebuild é um status ruim se você estiver usando um nível de RAID de paridade, como 5 ou 6. Isso significa que você provavelmente leu erros em outra unidade na matriz ... por exemplo, outra falha .

Se o sistema ainda estiver on-line, sua melhor opção é recuperar dados ou reconstruir. Não há uma boa correção para isso e definitivamente não há muito o que fazer para depurar.

Veja o seguinte:

Force o LUN em um HP Smart Array reconstruir

HDD SAS HP Proliant ML350 G5

HP SmartArray P400: como reparar unidade lógica com falha?

E, claro: RAID-5: dois discos falharam simultaneamente?

    
por 13.08.2014 / 20:46
2

Você atualizou seu firmware? Parece que a v1.8 é bem antiga para o controlador P400i. Ter todas as unidades OK e também paridade de falhas parece um erro para mim.

Eu tive vários casos em que a HP entregou firmware mais antigo e fez os problemas de inicialização de paridade de atualização fixa (mas eu precisei reconstruir o array do zero) e melhorou significativamente o desempenho (não exatamente a mesma unidade, estou usando o P440AR).

    
por 10.08.2015 / 07:08