20 milhões de Raw_Read_Error_Rate por minuto

1

Meu computador está um pouco pesado nas leituras primárias ....

Eu decidi verificar o status SMART do meu disco rígido e vi que ele tinha 125239624 erros de leitura brutos. Apenas um minuto depois, verifiquei novamente para comparação e fiquei com 127315512 .

Eu deveria estar preocupado? Este portátil (um HP-Pavilion) pode ainda estar na garantia ... devo enviá-lo?

Esta é a saída completa de smartctl -data -a /dev/sda :

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_
FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   118   100   006    Pre-fail  Always       -
       193153912
  3 Spin_Up_Time            0x0023   099   099   000    Pre-fail  Always       -
       0
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -
       289
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -
       0
  7 Seek_Error_Rate         0x002f   076   060   030    Pre-fail  Always       -
       42002234
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -
       2039
 10 Spin_Retry_Count        0x0033   100   100   097    Pre-fail  Always       -
       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -
       285
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -
       0
184 End-to-End_Error        0x0033   100   100   097    Pre-fail  Always       -
       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -
       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -
       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -
       0
190 Airflow_Temperature_Cel 0x0022   059   052   045    Old_age   Always       -
       41 (Min/Max 20/42)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -
       20
192 Power-Off_Retract_Count 0x0022   100   100   000    Old_age   Always       -
       0
193 Load_Cycle_Count        0x0032   038   038   000    Old_age   Always       -
       125873
194 Temperature_Celsius     0x0022   041   048   000    Old_age   Always       -
       41 (0 17 0 0 0)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -
       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -
       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -
       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -
       0
254 Free_Fall_Sensor        0x0032   100   100   000    Old_age   Always       -
       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
    
por Questionmark 13.02.2015 / 14:00

3 respostas

3

O formato de resultados SMART é meio lixo por esse motivo (bem, é confuso, pelo menos). Os discos modernos são tão cheios de dados que a taxa de erro bruta costuma ser bastante alta - depois de aplicar correção de erros , nenhum problema surge com acesso a dados / confiabilidade.

Eu me concentraria no seguinte:

196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always -0 197 Current_Pending_Sector 0x0032 100 100 000 Old_age Always -0 198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline -0

Esse é o número de setores realocados , esperando para serem realocados e não podendo ser realocados , respectivamente.

Quando a cabeça atinge um setor defeituoso e a leitura falha, ele se torna um Current_Pending_Sector . Na próxima vez que você tentar escrever, ele funciona (tudo volta ao normal e o setor é realocado) ou falha novamente - se houver espaço de realocação disponível no pool, ele será realocado. ( Reallocated_Event_Count + 1). Se o pool for usado, o setor se tornará Offline_Uncorrectable e nenhuma leitura / gravação adicional será possível.

Como a sua unidade não está tendo nenhum problema com setores, apenas o padrão, moderno, densidade de dados Raw_Read Error_Rate , eu acho que você está bem. Conselhos padrão sobre backups sempre se aplicam, mas não mais aqui do que em qualquer outro caso, eu acho.

    
por 13.02.2015 / 14:56
0

Quando você tem um datacenter com milhares de HDDs e é mais fácil e mais barato substituir um datacenter do que lidar com uma falha catastrófica, algumas estatísticas SMART podem ser usadas para prever falhas. Para usuários domésticos, não é confiável o suficiente e geralmente não vale a pena. Às vezes, os motoristas morrem sem qualquer aviso e, às vezes, sobrevivem por meses ou anos, apesar das condições críticas.

Neste momento, estou usando um computador com um disco rígido com mais de quatro anos de uso e que vem trabalhando há meses com esse aviso do smartctl:

...
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
...
5 Reallocated_Sector_Ct   0x0033   002   002   036    Pre-fail  Always   FAILING_NOW 4015
...

Estatisticamente, esse impulso já é mais do que 21 vezes mais provável de falhar do que o seu, portanto, não se preocupe muito com isso. Apenas mantenha seus backups atualizados, como você deve fazer de qualquer maneira.

    
por 21.02.2015 / 16:38
0

Os atributos SMART 1 Raw_Read_Error_Rate e 7 Seek_Error_Rate NÃO são contadores, são taxas de erro. Seus valores brutos não são significativos para nós, são definidos pelo fabricante. O valor bruto Raw_Read_Error_Rate não é relatado para nenhum disco rígido, exceto os criados pela Seagate, portanto, você tem uma Seagate. O número importante para isso é o VALOR de 118, que você pode considerar como 118%, melhor que 100% bom (é um valor estatisticamente relativo). Você não tem nada para se preocupar.

O sinalizador Pre-fail apenas indica quais atributos são considerados críticos para determinar o status SMART PASS / FAIL. Se o PIOR para um atributo Pre-fail atingir THRESH, a unidade será considerada FAILED.

5 Reallocated_Sector_Ct é um atributo crítico, 196 Reallocated_Event_Count não é.

    
por 24.02.2015 / 23:30