A reconstrução do RAID1 falha devido a erros de disco

2

Informações rápidas: Dell R410 com unidades de 2x500 GB no adaptador RAID1 no H700

Recentemente, uma das unidades na matriz RAID1 no servidor falhou, vamos chamá-la de Unidade 0. O controlador RAID a marcou como falha e a colocou offline. Substitui o disco defeituoso por um novo (a mesma série e fabricante, apenas maior) e configurei o novo disco como hot spare.

Reconstrua a partir da unidade 1 iniciada imediatamente e após 1,5 hora recebi a mensagem de que a unidade 1 falhou. O servidor não estava respondendo (kernel panic) e precisou ser reinicializado. Dado que meia hora antes desta reconstrução do erro foi de cerca de 40%, eu estimei que a nova unidade ainda não está em sincronia e tentei reiniciar apenas com a unidade 1.

O controlador RAID reclamou um pouco sobre a falta de matrizes RAID, mas encontrou um array RAID externo na Unidade 1 e eu o importei. Servidor inicializado e executado (de RAID degradado).

Veja os dados SMART para discos. Drive 0 (aquele que falhou primeiro)

ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    1
  3 Spin_Up_Time            POS--K   142   142   021    -    3866
  4 Start_Stop_Count        -O--CK   100   100   000    -    12
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   086   086   000    -    10432
 10 Spin_Retry_Count        -O--CK   100   253   000    -    0
 11 Calibration_Retry_Count -O--CK   100   253   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    11
192 Power-Off_Retract_Count -O--CK   200   200   000    -    10
193 Load_Cycle_Count        -O--CK   200   200   000    -    1
194 Temperature_Celsius     -O---K   112   106   000    -    31
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    0
198 Offline_Uncorrectable   ----CK   200   200   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   200   198   000    -    3

E a unidade 1 (a unidade que foi relatada como saudável do controlador até que a reconstrução tenha sido tentada)

ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR-K   200   200   051    -    35
  3 Spin_Up_Time            POS--K   143   143   021    -    3841
  4 Start_Stop_Count        -O--CK   100   100   000    -    12
  5 Reallocated_Sector_Ct   PO--CK   200   200   140    -    0
  7 Seek_Error_Rate         -OSR-K   200   200   000    -    0
  9 Power_On_Hours          -O--CK   086   086   000    -    10455
 10 Spin_Retry_Count        -O--CK   100   253   000    -    0
 11 Calibration_Retry_Count -O--CK   100   253   000    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    11
192 Power-Off_Retract_Count -O--CK   200   200   000    -    10
193 Load_Cycle_Count        -O--CK   200   200   000    -    1
194 Temperature_Celsius     -O---K   114   105   000    -    29
196 Reallocated_Event_Count -O--CK   200   200   000    -    0
197 Current_Pending_Sector  -O--CK   200   200   000    -    3
198 Offline_Uncorrectable   ----CK   100   253   000    -    0
199 UDMA_CRC_Error_Count    -O--CK   200   200   000    -    0
200 Multi_Zone_Error_Rate   ---R--   100   253   000    -    0

Nos logs de erro estendidos do SMART, encontrei:

O Drive 0 tem apenas um erro

Error 1 [0] occurred at disk power-on lifetime: 10282 hours (428 days + 10 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  10 -- 51 00 18 00 00 00 6a 24 20 40 00  Error: IDNF at LBA = 0x006a2420 = 6956064

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  61 00 60 00 f8 00 00 00 6a 24 20 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 18 00 60 00 00 00 6a 24 00 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 80 00 58 00 00 00 6a 23 80 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 68 00 50 00 00 00 6a 23 18 40 00 17d+20:25:18.105  WRITE FPDMA QUEUED
  61 00 10 00 10 00 00 00 6a 23 00 40 00 17d+20:25:18.104  WRITE FPDMA QUEUED

Mas a unidade 1 tem 883 erros. Eu vejo apenas alguns últimos e todos os erros que eu posso ver são assim:

Error 883 [18] occurred at disk power-on lifetime: 10454 hours (435 days + 14 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  01 -- 51 00 80 00 00 39 97 19 c2 40 00  Error: AMNF at LBA = 0x399719c2 = 966203842

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:57.802  READ FPDMA QUEUED
  2f 00 00 00 01 00 00 00 00 00 10 40 00  1d+00:25:57.779  READ LOG EXT
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:55.704  READ FPDMA QUEUED
  2f 00 00 00 01 00 00 00 00 00 10 40 00  1d+00:25:55.681  READ LOG EXT
  60 00 80 00 00 00 00 39 97 19 80 40 00  1d+00:25:53.606  READ FPDMA QUEUED

Com esses erros, existe alguma maneira de reconstruir o RAID, ou devo fazer backup, desligar o servidor, substituir discos por novos e restaurá-lo? O que acontece se eu dd disco defeituoso para um novo do Linux em execução em USB / CD?

Além disso, se alguém tiver mais experiências, quais poderiam ser as causas desses erros? Controlador de baixa qualidade ou discos? Os discos têm cerca de 1 ano de idade, mas é inacreditável para mim que ambos morram em tão pouco tempo.

    
por overlord_tm 05.10.2012 / 00:51

1 resposta

2

Na verdade, se os discos eram do mesmo lote do fabricante, não é de surpreender que eles tenham falhado ao mesmo tempo.

Eles tiveram o mesmo processo de fabricação, ambiente e padrões de uso. É por isso que geralmente tento solicitar unidades de modelo idênticas de diferentes fornecedores.

O meu procedimento preferido aqui é entrar em contato com o fabricante, substituí-lo por discos melhores e restaurá-lo a partir do backup.

Também não há nada de errado com o DD, mas geralmente preciso fazer o serviço o mais rápido possível.

De volta ao dia do fiasco do IBM Deskstars, eu tive um conjunto inteiro de 8 discos indo mal todos dentro de 6 semanas após 4 anos de uso. Eu mal saí disso com meus dados intactos.

    
por 05.10.2012 / 04:53