Devo me preocupar com um alto valor SMART Hardware_ECC_Recovered?

15

Eu recebi essa mensagem em /var/log/messages :


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda :


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

Isso significa que o disco está falhando e eu tenho que substituí-lo? Onde posso ler sobre a interpretação dos resultados do teste S.M.A.R.T?

    
por lexsys 26.06.2009 / 08:26

6 respostas

13

De acordo com Steve Gibson, da fama Spinrite , os valores SMART têm que ser tomados ao longo do tempo, não como leituras instantâneas . Isso significa que um valor de 47 não é necessariamente ruim se o valor for 47 por meses. No entanto, se o valor foi 42 uma hora atrás, e está subindo rapidamente, isso significa que a unidade está com dificuldades para acessar parte dos dados e pode em breve não conseguir ler o setor. Dependendo do valor dos dados nessa unidade, você pode querer substituí-lo.

    
por 26.06.2009 / 08:56
4

Primeiro, os valores mais baixos são piores para o SMART, não para valores mais altos (observe como a coluna de limite é sempre menor que o valor atual). Então, um aumento de valor não é motivo de preocupação. (Esta regra não se aplica aos valores brutos, no entanto.)

Os valores SMART tendem a oscilar um pouco (você pode estar na borda entre 46 e 47, por exemplo, então até mesmo pequenas alterações podem fazer com que ele gire para outro valor).

Sua smartctl -a de saída mostra que o pior que esse valor tem sido é 45, então, um pouco acima dela é normal.

Para mais informações, dê uma olhada na Wikipedia: ATA S.M.A.R.T. atributos .

    
por 26.06.2009 / 19:12
3

Lembre-se de que mesmo o extenso estudo realizado pelo Google constatou que um grande número de falhas de unidade não foi previsto por erros da SMART. É possível que o que você vê seja perfeitamente normal, mas como cada fabricante tem métricas diferentes para converter os valores brutos nos valores informados, é difícil dizer com certeza se a sua unidade está experimentando muitos erros ou não. No entanto, um número bruto que grande parece-me estranho.

Eu recomendaria a leitura de toda a unidade (dd ou rsync'ing para uma nova unidade) e verificar os valores SMART à medida que avança. Se você vir que o número bruto ou os valores informados mudam muito, eu começaria a procurar substituir a unidade.

    
por 26.06.2009 / 19:28
3

Um valor alto para este atributo é realmente muito bom:

Hardware ECC Recovered S.M.A.R.T. parameter indicates time between ECC-corrected errors.

link

    
por 05.08.2016 / 22:21
1

Nada de errado com isso.

Você sempre pode executar

smartctl -t long /dev/yourdrive

Depois de algumas horas, consulte o resultado

smartctl -a /dev/yourdrive

só para ter certeza.

    
por 26.06.2009 / 10:59
1

O IIRC Hardware ECC recuperado é a correção de erros nas leituras de disco, o que não é incomum em um disco, e codificam os dados com mecanismos de correção de erros exatamente por esse motivo. Alguns controladores também suportam informações redundantes em setores de disco e adicionam outra camada de correção de erros.

Como Dave Cheney afirma, os números devem ser monitorados ao longo do tempo. Mudanças radicais nessas estatísticas são uma indicação de uma falha na unidade. Além disso, fique de olho nas listas de defeitos em crescimento - se a lista de defeitos crescentes começar a crescer ou se as estatísticas da SMART começarem a mudar significativamente, substitua a unidade de forma profilática.

    
por 26.06.2009 / 12:55