ext4: bloco ruim fixo, mas este disco está morrendo?

3

Ubuntu 17.04; sistema de arquivos ext4 em 4TB WD verde SATA [WDC WD40EZRX-22SPEB0]

A montagem (na inicialização, do fstab) falhou com um superbloco ruim. fsck relatou / inode danificado, mas consertou. 99% dos arquivos restaurados (os poucos perdidos estão disponíveis no backup). O volume reparado é montado e opera normalmente.

Olhando para os dados SMART, acho que o disco está bem. O teste smartctl "estendido" foi aprovado. Os dados já estão armazenados em backup (e não são críticos para a missão). Eu já tenho uma unidade de substituição. É tentador adotar uma política de "tolerância zero" e substituir o disco agora, mas como é um item de 100 libras, e eu não quero estar arremessando e balanceando todos os discos que já escreveram um bloco ruim uma vez.

Aqui está o dump smartctl. O disco está realmente morrendo ou teve apenas um acidente ocasional?

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       61
  3 Spin_Up_Time            0x0027   195   176   021    Pre-fail  Always       -       7225
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       770
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   084   084   000    Old_age   Always       -       12325
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       730
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       40
193 Load_Cycle_Count        0x0032   194   194   000    Old_age   Always       -       18613
194 Temperature_Celsius     0x0022   121   106   000    Old_age   Always       -       31
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       21

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     12320         -
# 2  Short offline       Completed without error       00%     12311         -
    
por Finlay McWalter 06.10.2017 / 10:54

1 resposta

2

De acordo com as leituras SMART, o disco parece bem no momento.

Os emocionantes para setores de disco são estes

  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -    0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -    0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -    0

Um setor realocado é aquele que falhou em uma gravação e foi remapeado em outro lugar no disco. Um pequeno número destes é aceitável. Zero é excelente.

O valor atual do setor pendente é o número de setores que estão aguardando para serem realocados em outro lugar. (A leitura falhou, mas o disco está aguardando uma solicitação de gravação, que é o ponto no qual o setor é remapeado.) Isso pode se tornar diferente de zero por algum tempo e, à medida que os setores são sobrescritos, esse número diminuirá e o setor realocado contagem aumentará.

A contagem de setores offline incorrigíveis é o número de setores que falharam e não puderam ser remapeados. Um valor diferente de zero é uma má notícia porque significa que você está perdendo dados. Seu valor zero é bom.

Este próximo grupo mostra a duração do uso de sua unidade de disco

  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -    770
  9 Power_On_Hours          0x0032   084   084   000    Old_age   Always       -    12325
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -    730

Você teve o dispositivo funcionando por 12325 horas (se esse tempo for contínuo, cerca de 18 meses) e durante esse período ele foi ativado e desativado 730 vezes. Se você desligá-lo diariamente, terá o disco funcionando por cerca de 16 horas / dia durante dois anos.

Finalmente, valeria a pena agendar um teste completo toda semana. Você pode fazer isso com um comando como smartctl -t full /dev/sda . Erros nos testes podem se tornar motivo de preocupação.

# 1  Extended offline    Completed without error       00%     12320         -
# 2  Short offline       Completed without error       00%     12311         -

Se você estiver usando isso em um NAS, eu recomendaria um disco de grau NAS. Pessoalmente acho que o WD Red é muito bom a esse respeito. O custo é um pouco maior, mas a garantia é maior.

    
por 06.10.2017 / 11:48