O disco rígido está falhando?

41

Eu apenas tentei executar um teste no meu disco rígido e ele não quer concluir um autoteste. Aqui está o resultado:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

Então este disco está falhando?

    
por Michel 24.11.2014 / 09:42

6 respostas

43

Sua unidade está muito feliz em fazer um autoteste; do resumo, ele fez mais de cinco deles na última hora. E todos eles falharam, no início do teste, com erros de leitura.

Sim, este disco rígido está falhando. Como o famoso relatório do Google Labs disse (embora eu não possa colocar minha mão em um link para ele no momento), se smartctl disser que sua unidade está falhando, provavelmente é (parafraseado).

Editar : não tente salvá-lo. Tire todos os dados e substitua-os.

    
por 24.11.2014 / 09:45
10

Para responder à sua pergunta, um teste SMART com falha é uma indicação infalível de falha de unidade iminente. Você deve fazer backup de seus dados e substituir a unidade o mais rápido possível para evitar possíveis perdas de dados.

@ sj0h mencionou a Contagem do Ciclo de Carga, que é muito alta, em 447.630. (A maioria dos discos rígidos modernos é projetada para suportar 600.000 ciclos de carga / descarga.) Isso geralmente é causado pelo recurso Advanced Power Management (APM), que tenta economizar energia estacionando as cabeças (descarregando-as dos discos) após vários segundos ocioso. As cabeças são carregadas de volta nos pratos quando necessário. Na maioria dos sistemas, onde os discos rígidos recebem atividade intermitente, ligada e desligada, isso pode causar muitos ciclos de carga / descarga. Para desativar o APM, execute o seguinte comando em um prompt raiz:

smartctl -s apm,off /dev/sda

Este comando precisará ser executado toda vez que o sistema for desligado ou colocado em suspensão ou a unidade estiver desligada, pois essa configuração não é mantida quando a unidade é desligada.

Na minha experiência, isso reduzirá drasticamente o número de ciclos de carga / descarga e, consequentemente, as chances de você ter esse tipo de falha novamente no futuro. Observe, no entanto, que isso aumenta o consumo de energia e a temperatura da unidade. Se a unidade funcionar constantemente a temperaturas superiores a 50 ° C, o risco de falha prematura é aumentado, pelo que pode querer deixar o APM ligado (ou ligá-lo se estiver desligado) durante os meses mais quentes.

    
por 25.11.2014 / 08:01
2

Além das falhas de leitura, considere também a contagem do ciclo de carga. Em quase 500.000 isso pode indicar uma razão para falha ou, pelo menos, desgaste do ciclo de carga alta. Existe um ciclo de carga para cada minuto de tempo de ativação. Depois de substituir a unidade, verifique se a nova unidade também não está fazendo isso.

    
por 25.11.2014 / 04:13
2

Sim, você tem 16 setores ilegíveis, você tentou fazer vários testes que falharam aproximadamente na mesma área da unidade, por isso, backup rápido, mas tenha em mente que você já tem dados inacessíveis por agora demorando a proximidade dos setores 92290592, 92290596.

Você pode ter outras áreas problemáticas, você ainda não sabe se esses 16 setores são consecutivos ou espalhados, se você quiser jogar após o backup você pode fazer um auto-teste seletivo com -t select, startlba-endlba.

Current_Pending_Sector significa que o firmware do disco rígido tentou lê-lo, mas não pode, ele tentará algumas vezes mais (sempre que o sistema operacional solicitar) até falhar e marcá-lo como Offline_Uncorrectable ou substituirá o setor danificado por outro sobressalente setor se o sistema operacional gravar nele (aumentando assim o Reallocated_Sector_Ct ao fazer isso).

    
por 25.11.2014 / 22:37
1

Eu pessoalmente substituiria o disco. Se você, por algum motivo, não quiser fazer isso ainda, mas ainda demorar algum tempo com a unidade, precisará de alguma maneira de garantir que não use acidentalmente as áreas ruins para novos arquivos.

Eu tinha um disco assim em um Mac antigo, apenas gravando vídeo, e decidi que não queria mudá-lo ainda, já que os vídeos eram legais de se ter. Então eu precisava isolar os erros. Primeiro eu criei uma pasta vazia apenas para arquivos ruins, e então eu tentei ler todos os arquivos existentes no disco e qualquer um com um erro foi movido para o diretório bad-files (esperançosamente sem importância).

Em seguida, criei muitos arquivos de um megabyte com o nome exclusivo para preencher o disco rígido (assim, todo o espaço vazio estava agora em um desses arquivos de 1 MB) e, em seguida, repeti o procedimento. Todos os arquivos com erros neles, foi movido para o diretório bad-files, e aqueles que sobraram foram bons e poderiam ser deletados para recuperar o espaço ruim.

Agora você pode usar o disco um pouco mais, mas não o use para coisas importantes. Ele falhará mais e provavelmente será inconveniente quando acontecer.

    
por 25.11.2014 / 00:52
1

Este não é um bom sinal. Você deve certificar-se de que o conteúdo do disco é feito em backup e não usar o disco para nada importante.

No entanto, tenho visto discos com setores com falha que os realocaram e permaneceram operacionais por anos, para que você pudesse mantê-los por um tempo, por exemplo, para coisas sem importância ou backups adicionais.

Uma coisa a fazer, então, seria ver quais arquivos foram corrompidos pelos setores ilegíveis, e escrever para esses setores para forçar a realocação pelo disco (movendo-os de "Current_Pending_Sector" para "Reallocated_Sector_Ct"). Se estiver usando o Linux, consulte o link . Depois que os setores forem realocados, o autoteste deve passar ou reportar setores mais ilegíveis.

Eu discordo da maioria das respostas, pois não acho que setores ruins sejam necessariamente uma indicação de fracasso iminente. Como o link diz, "todo disco rígido começa a produzir setores defeituosos em algum ponto em sua vida ".

    
por 26.11.2014 / 09:08