falha ATA em um array RAID5

0

Eu tenho recebido algumas falhas de RAID5 por algum tempo quando estou sob carga pesada. Eu sempre fui capaz de forçar a remontagem da matriz após uma reinicialização, e a contagem de eventos entre os discos perdidos e o não descartado é sempre menor que 20.

Após algumas investigações, acho que percebi que o problema não está no próprio disco (eles geralmente aparecem juntos ao mesmo tempo), mas no controlador.

Aqui está uma extração do log dmesg quando isso acontece (nesse caso, isso aconteceu enquanto forçava uma checagem na matriz): link

Depois de ter falhado assim, ambas as unidades / dev / sde e / dev / sdf parecem estar inacessíveis, como um smartctl -a / dev / sde desiste disto:

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-37-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               /5:0:0:0
Product:              
User Capacity:        600,332,565,813,390,450 bytes [600 PB]
Logical block size:   774843950 bytes
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Mesmo que um disco de 600PB seja legal, ele é de apenas 1,5 TB.

Eu tenho 3 dos discos RAID que estão conectados às portas ATA na placa-mãe, e 2 discos estão conectados em um controlador ATA externo (PCIex). Das falhas no log, tenho motivos para acreditar que é o controlador que tem problemas.

O que eu poderia fazer para corrigir isso? Alterar cabos ATA? Alterar algumas configurações? Sou bem novo no linux.

Dados do smartctl:

Model Family:     Western Digital Caviar Green (Adv. Format)
Device Model:     WDC WD15EARS-00MVWB0
Serial Number:    WD-WMAZA2091111
LU WWN Device Id: 5 0014ee 6ab49271f
Firmware Version: 51.0AB51

sdf mostra essas estatísticas:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   171   169   051    Pre-fail  Always       -       34595
  3 Spin_Up_Time            0x0027   253   253   021    Pre-fail  Always       -       1016
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       78
  5 Reallocated_Sector_Ct   0x0033   162   162   140    Pre-fail  Always       -       735
  7 Seek_Error_Rate         0x002e   200   199   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       22178
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       76
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       43
193 Load_Cycle_Count        0x0032   199   199   000    Old_age   Always       -       3415
194 Temperature_Celsius     0x0022   118   110   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   001   001   000    Old_age   Always       -       691
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       6
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       2
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   199   189   000    Old_age   Offline      -       319

Enquanto o sde não mostra quaisquer realocações ou erros de leitura:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   253   253   021    Pre-fail  Always       -       925
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       73
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   070   070   000    Old_age   Always       -       22178
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       71
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       38
193 Load_Cycle_Count        0x0032   199   199   000    Old_age   Always       -       3378
194 Temperature_Celsius     0x0022   114   106   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Os discos são realmente verdes, não acho que seria um problema quando eu os comprei.

O que parece estranho para mim é que, sob carga, normalmente ambos os discos saem do array. O disco defeituoso poderia de alguma forma "entrar em cascata" para o outro no mesmo controlador ATA?

De qualquer forma, acho que tenho que comprar pelo menos uma nova unidade.

Editar: engraçado que eu disse geralmente ambas as unidades morrem ao mesmo tempo; depois de verificar esta manhã eu só percebi apenas sdf derrubado da matriz, e tem sido há algum tempo, como a diferença de contagem ainda é de cerca de 4000. Nesse caso, suponho que não faz sentido tentar adicioná-lo de volta para a matriz, eu precisa encontrar um sobressalente rapidamente.

    
por user190443 05.09.2013 / 21:47

1 resposta

0

Os erros do ATA são bastante genéricos, é mais fácil pegar os erros no Linux para depurar.

Existem duas coisas principais que causam os erros do ATA:

  1. discos com defeito / verde
  2. Problema de comunicação do disco para o processador / memória (SATA cabos ou conectores aos quais eles estão se conectando)

Isso é mais comum com os problemas de disco da minha experiência.

  • Se você tiver drives verdes, será um problema para a natureza de alguns a natureza das unidades para economizar energia. Algum modelo de unidades girará para baixo, e quando o RAID tenta acessar o disco ele irá sinalizá-lo como um erro ATA se as unidades não responderem a tempo. (Isso pode ser um falso negativo, que não há muito que você possa fazer.
  • Se houver um disco danificado, talvez seja necessário testar o disco em outro computador com as ferramentas do fabricante da unidade. Isso asseguraria não é a conexão e um teste mais profundo da unidade.

Se você tiver um cabo para alternar, pode ajudar a resolver isso.

Curiosamente, eu vi esse problema no WDC. (Eu acho que havia um firmware que pode ter resolvido isso na unidade ... O que eu não acho que eles tornem mais fácil fazer publicamente.)

Qual é o modelo da unidade?

    
por Mhynlo 06.09.2013 / 08:31