Erros no disco rígido

4

Meu sistema de arquivos /home é JFS, ele chegou ao modo RO várias vezes, então eu tive que reinicializá-lo / remontá-lo. Eu vi isso em '/ var / log / messages':

Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925711] ata2.00: configured for UDMA/133
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925755] sd 1:0:0:0: [sda] Unhandled sense code
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925759] sd 1:0:0:0: [sda]  
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925763] sd 1:0:0:0: [sda]  
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925770]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925778]         0e 5a b2 b8 
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925782] sd 1:0:0:0: [sda]  
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925785] sd 1:0:0:0: [sda] CDB: 
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925815] sd 1:0:0:0: [sda] Unhandled sense code
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925817] sd 1:0:0:0: [sda]  
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925820] sd 1:0:0:0: [sda]  
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925825]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925833]         00 00 00 00 
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925836] sd 1:0:0:0: [sda]  
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925839] sd 1:0:0:0: [sda] CDB: 
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925863] sd 1:0:0:0: [sda] Unhandled sense code
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925865] sd 1:0:0:0: [sda]  
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925868] sd 1:0:0:0: [sda]  
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925872]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925879]         00 00 00 00 
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925882] sd 1:0:0:0: [sda]  
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925885] sd 1:0:0:0: [sda] CDB: 
Dec 31 10:12:49 uvv-laptop-y570 kernel: [  983.925908] ata2: EH complete

E smartctl -a /dev/sda me deu isto:

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   174   021    Pre-fail  Always       -       2008
  4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       1005
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   082   082   000    Old_age   Always       -       13675
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       998
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       37
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       810861
194 Temperature_Celsius     0x0022   106   091   000    Old_age   Always       -       41
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Modelo de disco rígido:

Model Family:     Western Digital Scorpio Blue Serial ATA (Adv. Format)
Device Model:     WDC WD7500BPVT-24HXZT3
Serial Number:    WD-WX91A91R4010
LU WWN Device Id: 5 0014ee 601b831c9
Firmware Version: 03.01A03

Upd: iniciei outro autoteste (o primeiro que fiz há alguns meses) e recebi algumas atualizações:

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%     13680         229857912
# 2  Extended offline    Completed without error       00%      9661         -
# 3  Extended offline    Completed: read failure       90%      9654         96004576
# 4  Extended offline    Completed: read failure       90%      9653         96004576

linhas de # 2 a # 4 que eu já tinha antes. Eu segui estes guias: Badblock HOWTO e Depure o sistema de arquivos . Parece que o bloco não é mais relatado como errôneo, mas não está em Blocos realocados também não são aumentados. A única coisa que foi aumentada é Raw_Read_Error_Rate depois que eu escrevi zero em um bloco ruim.

As questões são: devo considerar pedir um novo disco rígido?

    
por UVV 31.12.2014 / 13:27

2 respostas

4

Na página smartctl man:

The Attribute table printed out by smartctl also shows the "TYPE" of the Attribute. Attributes are one of two possible types: Pre-failure or Old age. Pre-failure Attributes are ones which, if less than or equal to their threshold values, indicate pending disk failure. Old age, or usage Attributes, are ones which indicate end-of-product life from old-age or normal aging and wearout, if the Attribute value is less than or equal to the threshold. Please note: the fact that an Attribute is of type 'Pre-fail' does not mean that your disk is about to fail! It only has this meaning if the Attribute´s current Normalized value is less than or equal to the threshold value.

If the Attribute´s current Normalized value is less than or equal to the threshold value, then the "WHEN_FAILED" column will display "FAILING_NOW". If not, but the worst recorded value is less than or equal to the threshold value, then this column will display "In_the_past". If the "WHEN_FAILED" column has no entry (indicated by a dash: ´-´) then this Attribute is OK now (not failing) and has also never failed in the past.

Então, de acordo com a seção de saída smartctl que você postou, sua unidade realmente parece em boa forma. No entanto, isso não significa necessariamente que não haja outro problema.

Infelizmente, a mensagem Unhandled sense code significa que algo deu errado, mas o kernel não sabe o quê. Você pode tentar ver o resto da saída smartctl para ver se há algo errado. Deve haver uma parte que resuma a saúde geral do disco. Você pode obtê-lo sozinho com a opção -H .

Se a unidade suportar autoteste, você pode iniciar um com:

smartctl -t long /dev/sda

Isso começa em segundo plano, então você terá que verificar os resultados. Se a unidade não estiver montada, você poderá adicionar a opção -C para ativar o modo cativo, que deve levar menos tempo. Um teste short também é possível, mas menos completo.

Também é uma boa ideia verificar os conectores físicos, etc., para garantir que nada se solte - é uma solução fácil se tiver.

Atualizar

A Wikipedia tem uma boa referência para atributos inteligentes . Observe que a coluna 'Melhor' refere-se aos valores brutos na coluna mais à direita da saída e não ao valor normalizado no início. Aqui está a parte sobre 'Setor atual pendente' mencionado por frostschutz :

Count of "unstable" sectors (waiting to be remapped, because of unrecoverable read errors). If an unstable sector is subsequently read successfully, the sector is remapped and this value is decreased. Read errors on a sector will not remap the sector immediately (since the correct value cannot be read and so the value to remap is not known, and also it might become readable later); instead, the drive firmware remembers that the sector needs to be remapped, and will remap it the next time it's written. However some drives will not immediately remap such sectors when written; instead the drive will first attempt to write to the problem sector and if the write operation is successful then the sector will be marked good (in this case, the "Reallocation Event Count" (0xC4) will not be increased). This is a serious shortcoming, for if such a drive contains marginal sectors that consistently fail only after some time has passed following a successful write operation, then the drive will never remap these problem sectors.

    
por 31.12.2014 / 17:21
1

Sua unidade tem 1 setor pendente atual; o que significa que o setor não pôde ser lido corretamente. geralmente, isso é um problema de hardware e resulta em uma falha na leitura durante um autoteste SMART. Se você escrever este setor, ele pode "consertar" o problema ou se transformar em Setor Realocado.

Como tecnicamente a unidade já perdeu dados neste momento, eu não confiaria mais nela.

    
por 31.12.2014 / 17:27