HP SmartArray P400: Como reparar uma unidade lógica com falha?

8

Eu tenho um HP Server com controlador SmartArray P400 (incl. Backup de Cache / Bateria de 256 MB) com uma unidade lógica com falha na substituição da unidade física que não foi reconstruída.

Foi assim que pareci quando detectei o erro:

~# /usr/sbin/hpacucli ctrl slot=0 show config
Smart Array P400 in Slot 0 (Embedded) (sn: XXXX)

  array A (SATA, Unused Space: 0 MB)
    logicaldrive 1 (698.6 GB, RAID 1, OK)
      physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 750 GB, OK)
      physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 750 GB, OK)

  array B (SATA, Unused Space: 0 MB)
    logicaldrive 2 (2.7 TB, RAID 5, Failed)
      physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 750 GB, OK)
      physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 750 GB, OK)
      physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SATA, 750 GB, OK)
      physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SATA, 750 GB, Failed)
      physicaldrive 2I:1:7 (port 2I:box 1:bay 7, SATA, 750 GB, OK)

  unassigned
      physicaldrive 2I:1:8 (port 2I:box 1:bay 8, SATA, 750 GB, OK)
~# 

Eu pensei que eu tinha drive 2I: 1: 8 configurado como um sobressalente para Array A e Array B, mas parece que este não era o caso :-(. Eu notei o problema devido a erros de E / S no host , mesmo que apenas 1 unidade física do RAID5 falhe.

Alguém sabe por que isso pode acontecer? A unidade lógica deve entrar no modo "Degradado", mas ainda assim ser totalmente acessível a partir do sistema operacional do host!?

Primeiro tentei adicionar a unidade não atribuída 2I: 1: 8 como sobressalente à unidade lógica 2, mas isso não foi possível:

~# /usr/sbin/hpacucli ctrl slot=0 array B add spares=2I:1:8
    Error: This operation is not supported with the current configuration.
    Use the "show" command on devices to show additional details 
    about the configuration.
~#  

Curiosamente, é possível adicionar a unidade não atribuída à primeira matriz sem problemas. Eu pensei que talvez o controlador colocar a matriz em estado "falhou" devido à falta de reposição e protege matrizes com falha de modificação. Então eu tentei foi reativar a unidade lógica (para adicionar o sobressalente depois):

~# /usr/sbin/hpacucli ctrl slot=0 ld 2 modify reenable
    Warning: Any previously existing data on the logical drive may not 
    be valid or recoverable. Continue? (y/n) y

    Error: This operation is not supported with the current configuration.
    Use the "show" command on devices to show additional details
    about the configuration.
~# 

Mas, como você pode ver, reativar a unidade lógica isso não foi possível.

Agora eu substituí a unidade com falha pelo hotswap com a unidade não atribuída. O status agora é assim:

~# /usr/sbin/hpacucli ctrl slot=0 show config
Smart Array P400 in Slot 0 (Embedded) (sn: XXXX)

  array A (SATA, Unused Space: 0 MB)
    logicaldrive 1 (698.6 GB, RAID 1, OK)
      physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 750 GB, OK)
      physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 750 GB, OK)

  array B (SATA, Unused Space: 0 MB)
    logicaldrive 2 (2.7 TB, RAID 5, Failed)
      physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 750 GB, OK)
      physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 750 GB, OK)
      physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SATA, 750 GB, OK)
      physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SATA, 750 GB, OK)
      physicaldrive 2I:1:7 (port 2I:box 1:bay 7, SATA, 750 GB, OK)
~# 

A unidade lógica ainda não está acessível. Por que não está reconstruindo?

O que posso fazer?

FYI, esta é a configuração do meu controlador:

~# /usr/sbin/hpacucli ctrl slot=0 show
 Smart Array P400 in Slot 0 (Embedded)
  Bus Interface: PCI
  Slot: 0
  Serial Number: XXXX
  Cache Serial Number: XXXX
  RAID 6 (ADG) Status: Enabled
  Controller Status: OK
  Chassis Slot:
  Hardware Revision: Rev E
  Firmware Version: 5.22
  Rebuild Priority: Medium
  Expand Priority: Medium
  Surface Scan Delay: 15 secs
  Surface Analysis Inconsistency Notification: Disabled
  Raid1 Write Buffering: Disabled
  Post Prompt Timeout: 0 secs
  Cache Board Present: True
  Cache Status: OK
  Accelerator Ratio: 25% Read / 75% Write
  Drive Write Cache: Disabled
  Total Cache Size: 256 MB
  No-Battery Write Cache: Disabled
  Cache Backup Power Source: Batteries
  Battery/Capacitor Count: 1
  Battery/Capacitor Status: OK
  SATA NCQ Supported: True
~# 

Obrigado por você ajudar com antecedência.

    
por TegtmeierDE 22.01.2012 / 19:27

2 respostas

5

A resposta não é agradável. Há uma grande probabilidade de que sua matriz esteja em um estado "aguardando reconstrução", em que há outro disco com falha no conjunto de matriz RAID5 que impede a conclusão da recuperação. É por isso que você deve evitar o RAID5 nos dias de hoje . Não ajuda que estas sejam unidades SATA ... A probabilidade de problemas é ainda maior. Tente desligar o sistema (deixando as unidades girarem) e ligando novamente. Siga os prompts na tela da matriz do BIOS e escolha a opção F2 para "reativar todas as unidades lógicas". Isso pode fazer o kickstart no processo de reconstrução.

Caso contrário, é uma reconstrução / recuperação com novos discos.

    
por 15.02.2012 / 01:38
0

Você deve inicializar no ACU e ver exatamente o que está acontecendo. se a unidade lógica inteira estiver inacessível, você poderá reativá-la lá.

    
por 06.03.2013 / 10:02