Disco rígido muito lento, falhando com mais e mais erros

0

Desde alguns dias, meu Seagate Momentus 7200.4 vem falhando mais e mais, possivelmente devido a uma falta de energia. Após o "ATENÇÃO: Seu disco rígido está falhando" (estou usando o fedora), o principal sintoma foi a lentidão: constante 100% da espera da CPU por horas, quase impossível fazer qualquer coisa. Fiz um backup, depois reiniciei e tive que fazer um e2fsck -y (muita saída), que tive que repetir mais tarde (nem sequer inicializei em algum momento, kernel panic), fiz alguns testes smartctl longos e curto, deixei sozinho por uma noite para corrigir seu setor ou o que seja.

Agora o número de erros acumulados parece menor e o computador é mais utilizável, mas o que devo fazer: existe algum comando fsck com melhores efeitos, ou alguma outra maneira de fazê-lo pular os setores defeituosos e continuar funcionando, além de consertando os setores um por um com hdparm? Ou a unidade certamente será destruída?

Trechos de smartctl -x / dev / sda:

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     POSR--   085   074   006    -    243348742
  5 Reallocated_Sector_Ct   PO--CK   100   100   036    -    0
  7 Seek_Error_Rate         POSR--   084   060   030    -    238612361
  9 Power_On_Hours          -O--CK   087   087   000    -    11535
198 Offline_Uncorrectable   ----C-   100   100   000    -    8
199 UDMA_CRC_Error_Count    -OSRCK   200   200   000    -    0
240 Head_Flying_Hours       ------   100   253   000    -    132680129719553
241 Total_LBAs_Written      ------   100   253   000    -    2525013242
242 Total_LBAs_Read         ------   100   253   000    -    2162196433

Error 3759 [18] occurred at disk power-on lifetime: 11535 hours (480 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 00 00 00 22 7e 00 3d 2a 00 00  Error: UNC at LBA = 0x227e003d2a = 148142832938

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 00 00 00 08 00 22 7e 00 3d 28 40 00     18:38:24.892  READ FPDMA QUEUED
  27 00 00 00 00 00 00 00 00 00 00 e0 00     18:38:24.891  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
  ec 00 00 00 00 00 00 00 00 00 00 a0 00     18:38:24.889  IDENTIFY DEVICE
  ef 00 03 00 46 00 00 00 00 00 00 a0 00     18:38:24.889  SET FEATURES [Set transfer mode]
  27 00 00 00 00 00 00 00 00 00 00 e0 00     18:38:24.889  READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]


SMART Extended Self-test Log Version: 1 (1 sectors)
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     11528         574443398

Mais: link link link link

Atualização : como você disse, o disco deve ser descartado, fiz dmesg | grep -oE "setor. + $" | tipo -u e eu sudo hdparm - setor de escrita - sim-eu-sei-o-que-eu-estou-fazendo de uma dúzia de setores. Agora executando outro teste, vamos ver o que sai disso.

Atualização 2 : eu tive para corrigir mais alguns setores defeituosos com o hdparm manualmente mas, uma noite depois, todos os erros que eu encontro no log do sistema parecem ter sido corrigidos automaticamente como deveriam normalmente. Eu encontrei alguns erros engraçados no meio tempo, como som distorcido à la techno music e grep pirando, mas uma atualização do yum pode ter sido suficiente para repará-los. O último smartctl -a / dev / sda foi concluído sem erros; Agora tenho "Contagem de Erros do ATA: 5004", 2 para 197 Current_Pending_Sector e 198 Offline_Uncorrectable.

Atualização 3 : o sistema é mais utilizável, mas os problemas persistem: "Contagem de Erros do ATA: 9484". Eu às vezes tenho que usar o truque hdparm, mas acho que não está funcionando corretamente porque o problema aparece mais tarde no setor seguinte. Offline_Uncorrectable não está crescendo, então suspeito que o disco não está conseguindo desativar setores defeituosos. Eu acho que tenho que desistir e comprar um novo ...

    
por Nemo 17.01.2014 / 23:35

1 resposta

2

Espero que todos os seus dados tenham backup?

Se não, obtenha um novo disco o mais rápido possível, um pelo menos tão grande quanto o antigo e inicie um backup local.

Na minha experiência, é muito mais fácil substituir o disco mais cedo ou mais tarde.

No entanto, se você tiver dinheiro, talvez queira investir em uma cópia de Spinrite . Faça isso funcionar no disco - pode levar dias ou até semanas em casos extremos. Nem sempre pode recuperar o disco, mas acontece de maneira surpreendente. De fato, ele regularmente traz os discos de volta, eu já tive que ressuscitar alguns laptops. Em um caso, recuperou o disco até um ponto em que ainda está em uso mais de 12 meses depois. No outro caso, recuperou a maioria dos dados, o suficiente para poder fazer uma reconstrução mais lenta. É em torno de USD90 embora não tão barato. Se os erros foram causados por um power blip da sua máquina, o Spinrite provavelmente consertará as coisas bem. Se não, mostrará como as coisas estão ruins & pode comprar tempo suficiente para copiar para outro disco.

Aliás, setores defeituosos devem ser marcados automaticamente pelo firmware no disco, você não deveria estar mexendo com eles. Curiosamente, o exercício pelo qual o Spinrite coloca um disco irá, muitas vezes, redefinir os setores defeituosos, já que eles podem ter sido marcados devido ao movimento inconsistente da cabeça, em vez da falha do disco.

A propósito, como vários pesquisadores descobriram, os avisos SMART são bastante inúteis, pois não são um bom indicador da falha do disco. O Google fez um grande estudo sobre o assunto.

    
por 17.01.2014 / 23:51