O hpacucli HP DL370 G5 mostra 2 unidades como Predictive Failure - seguro tentar uma reconstrução 1 por 1?

2

Eu tenho:

SAN do Openfiler ML370 G5 Smart Array 6400 ranhura 1 Matriz B O Logical Drive 2 é um conjunto RAID5 de 6 unidades de hotk hot plug de 148GB que produz 680 GB sem reposição

Sexta-feira passada, a energia acabou, esta máquina estava apenas ligada à parede e caiu com força. Quando ele voltou, os inversores 1 e 4 de 0-5 foram alterados para a luz de falha piscando em vermelho. O gráfico do guia de matriz mostra que, como "falha de previsão foi recebida para essa unidade, substitua o mais rápido possível". Na linha de comando, o utilitário hpacucli relata a mesma mensagem; Falha previsível. As luzes de atividade piscam normalmente. O gráfico de falhas diz que o inversor não "falhou" até que o LED de falha esteja aceso.

Durante tudo isso e agora uma semana depois, o sistema permanece ativo e nenhum usuário relatou nenhum problema até agora - todos os hosts ESX / VMs estão usando essa SAN e ainda estão funcionando bem e eu fiz manualmente um backup de tudo na matriz e novas unidades apareceram hoje. Então eu posso tentar algumas coisas sem muito esforço, mas tenho certeza que gostaria de substituir as unidades e ter um trabalho de reconstrução se eu for cuidadoso.

Normalmente eu diria que com apenas uma falha de previsão eu poderia conseguir substituí-los um de cada vez, permitindo que eles reconstruíssem um de cada vez e ficassem bem, MAS quando eu executo o hpacucli eu recebo a seguinte saída no LD

Matriz: B       Tipo de Interface: SCSI Paralelo       Espaço não utilizado: 0 MB       Status: OK

  Logical Drive: 2
     Size: 683.6 GB
     Fault Tolerance: RAID 5
     Heads: 255
     Sectors Per Track: 32
     Cylinders: 65535
     Stripe Size: 64 KB
     Status: OK
     Array Accelerator: Enabled
     Parity Initialization Status: Initialization Failed
     Unique Identifier: 600508B100104B39535153303250000F
     Disk Name: /dev/cciss/c0d1
     Mount Points: None
     Logical Drive Label: A01E9878P57820K9SQS02PBE24

Portanto, o status é OK, mas a inicialização de paridade é o que me assustou. Qualquer orientação sobre um procedimento para ter uma reconstrução bem-sucedida foi apreciada - ou conselhos ao longo das linhas de "todos os dados são suspeitos agora mesmo, apenas substitua os discos defeituosos, faça um novo array e restaure desde que você tenha backup" também. Eu entendo que é um risco, não importa o quê. Devo reiniciar antes de tentar substituir alguma coisa?

Saída hpacucli completa na parte inferior.

Parece que, se essa falha preditiva for apenas um erro SMART se acumulando, ela ainda teria paridade e reconstrução, talvez devagar?

Muito obrigado por qualquer orientação, paz!

--- hpacucli completo ---

Matriz: B       Tipo de Interface: SCSI Paralelo       Espaço não utilizado: 0 MB       Status: OK

  Logical Drive: 2
     Size: 683.6 GB
     Fault Tolerance: RAID 5
     Heads: 255
     Sectors Per Track: 32
     Cylinders: 65535
     Stripe Size: 64 KB
     Status: OK
     Array Accelerator: Enabled
     Parity Initialization Status: Initialization Failed
     Unique Identifier: 600508B100104B39535153303250000F
     Disk Name: /dev/cciss/c0d1
     Mount Points: None
     Logical Drive Label: A01E9878P57820K9SQS02PBE24

  physicaldrive 1:0
     SCSI Bus: 1
     SCSI ID: 0
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY83F3Y00007442557Q
     Model: COMPAQ  BD14685A26
  physicaldrive 1:1
     SCSI Bus: 1
     SCSI ID: 1
     Status: Predictive Failure
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY8393700007345XU2M
     Model: COMPAQ  BD14685A26
  physicaldrive 1:2
     SCSI Bus: 1
     SCSI ID: 2
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9NWGY00007524BFV1
     Model: COMPAQ  BD14685A26
  physicaldrive 1:3
     SCSI Bus: 1
     SCSI ID: 3
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9PA1N00007523W3DP
     Model: COMPAQ  BD14685A26
  physicaldrive 1:4
     SCSI Bus: 1
     SCSI ID: 4
     Status: Predictive Failure
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY72WR9000075216UNS
     Model: COMPAQ  BD14685A26
  physicaldrive 1:5
     SCSI Bus: 1
     SCSI ID: 5
     Status: OK
     Drive Type: Data Drive
     Interface Type: Parallel SCSI
     Transfer Mode: Ultra 3 Wide
     Size: 146.8 GB
     Transfer Speed: 160 MB/Sec
     Rotational Speed: 10000
     Firmware Revision: HPB8
     Serial Number: 3HY9NT3F000075231R9V
     Model: COMPAQ  BD14685A26
    
por bifpowell 03.02.2012 / 07:04

3 respostas

2

100% seguro? não. Nenhuma operação envolvendo uma reconstrução de matriz é totalmente segura, em particular com o RAID 5. Funcionará? Provavelmente.

Seu problema é que uma única falha de leitura durante a reconstrução fará com que todo o volume falhe. E você vai fazer isso duas vezes, incluindo uma vez com uma unidade que já está com problemas.

O ideal é que, em tal situação, você tire o sistema da produção, faça um backup completo, exclua o volume RAID, altere seus discos, recrie o array e restaure seu backup.

Se você realmente não pode levar tanto tempo de inatividade naquele array, então você deve tentar mudar cada disco separadamente e esperar cada vez que a reconstrução seja feita, mas NÃO faça isso sem primeiro ter um backup completo e, se Se você pretende manter o sistema ativo durante a reconstrução, avise primeiro os usuários de que é possível que eles perderão todos os dados após a data do último backup e que você obteve a aprovação deles (afinal, são os dados deles e devem ser aqueles que decidem que risco prefeririam: seguro, mas com tempo de inatividade ou inseguro, mas potencialmente com serviço ininterrupto).

    
por 03.02.2012 / 09:21
2

Copie seus dados do array enquanto você pode ou tentar fazer um backup dos dados relevantes. Você pode desligar (girar as unidades para baixo) e voltar para ver se é possível executar o processo de reconstrução. Substitua um disco por vez. Preste atenção no status "aguardando reconstrução". Se você ver isso, significa que a reconstrução do RAID 5 não poderá continuar (geralmente um erro de leitura em outra unidade na matriz).

A inicialização paritária é detalhada aqui e here .

Background RAID creation 
When you create a RAID 1, RAID 5, or RAID 6 logical drive, the Smart Array controller must build the 
logical drive within the array and initialize the parity before enabling certain advanced performance 
techniques. Parity initialization takes several hours to complete. The time it takes depends on the size of the 
logical drive and the load on the controller. The Smart Array controller creates the logical drive, initializing 
the parity whenever the controller is not busy. While the controller creates the logical drive, you can access 
the storage volume which has full fault tolerance. 

Qual gabinete você está usando para esses discos? MSA30?

    
por 15.02.2012 / 14:46
2

Eu tive exatamente o mesmo problema em um DL380 G7 P410i RAID5 e acabei de passar por uma experiência muito desagradável com o suporte da HP onde não consegui absolutamente nada, lidando com várias pessoas (da Índia) que não tinham ideia do que estava acontecendo e quem também não estavam dispostos a escalar a questão. O material de referência foi igualmente fraco para explicar essa condição de erro.

De qualquer forma, resolvi o problema. Pelo que eu posso dizer, a operação de “reconstrução” não é necessariamente a mesma que a “inicialização de paridade”. No meu caso, eu tinha um HDD defeituoso com muitos erros de leitura recuperados, mas não marcado como falhado pelo array. A questão era, é claro, “Se eu trocar este disco, a unidade lógica falhará porque talvez a paridade não tenha sido escrita corretamente?” E também “Por que o agente da HP não informou nada de errado? " Bem, depois de ter feito backup de tudo e retirado o disco defeituoso, a unidade lógica continuou funcionando. Eu coloquei o disco de substituição e o status da unidade lógica mudou para "Recuperação". Quando a recuperação foi concluída, o status da unidade lógica foi alterado novamente para “OK”, mas a inicialização da paridade ainda estava com falha. Não sei como isso aconteceu em primeiro lugar, mas pode ter sido devido a erros no meu disco com defeito, como sugerido acima.

Então, finalmente, eu fiz um "ctrl slot = 0 logicaldrive 1 modify raid = 5" do ACU cli e isso reiniciou a inicialização de paridade, que finalmente foi concluída com sucesso.

    
por 22.07.2012 / 18:59