ZFS - “Adicionar. Sentido: Erro de leitura não recuperada - falha na realocação automática ”no syslog, mas os dados SMART parecem corretos

2

Eu tenho um zpool (3 x 3 TB Western Digital Red) que eu esfregar semanalmente para erros que vem OK, mas eu tenho um erro recorrente no meu syslog:

Jul 23 14:00:41 server kernel: [1199443.374677] ata2.00: exception Emask 0x0 SAct 0xe000000 SErr 0x0 action 0x0
Jul 23 14:00:41 server kernel: [1199443.374738] ata2.00: irq_stat 0x40000008
Jul 23 14:00:41 server kernel: [1199443.374773] ata2.00: failed command: READ FPDMA QUEUED
Jul 23 14:00:41 server kernel: [1199443.374820] ata2.00: cmd 60/02:c8:26:fc:43/00:00:f9:00:00/40 tag 25 ncq 1024 in
Jul 23 14:00:41 server kernel: [1199443.374820] res 41/40:00:26:fc:43/00:00:f9:00:00/40 Emask 0x409 (media error) <F>
Jul 23 14:00:41 server kernel: [1199443.374946] ata2.00: status: { DRDY ERR }
Jul 23 14:00:41 server kernel: [1199443.374979] ata2.00: error: { UNC }
Jul 23 14:00:41 server kernel: [1199443.376100] ata2.00: configured for UDMA/133
Jul 23 14:00:41 server kernel: [1199443.376112] sd 1:0:0:0: [sda] tag#25 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 23 14:00:41 server kernel: [1199443.376115] sd 1:0:0:0: [sda] tag#25 Sense Key : Medium Error [current] [descriptor]
Jul 23 14:00:41 server kernel: [1199443.376118] sd 1:0:0:0: [sda] tag#25 Add. Sense: Unrecovered read error - auto reallocate failed
Jul 23 14:00:41 server kernel: [1199443.376121] sd 1:0:0:0: [sda] tag#25 CDB: Read(16) 88 00 00 00 00 00 f9 43 fc 26 00 00 00 02 00 00
Jul 23 14:00:41 server kernel: [1199443.376123] blk_update_request: I/O error, dev sda, sector 4181982246
Jul 23 14:00:41 server kernel: [1199443.376194] ata2: EH complete

Um tempo atrás eu tive um cabo SATA defeituoso que causou alguns erros de leitura / gravação (que foram corrigidos posteriormente pelo zpool scrubs e pela restauração de snapshots) e originalmente pensei que esse erro era resultado disso. No entanto, ele fica aleatoriamente recorrente, desta vez enquanto eu estava no meio de um matagal.

Até o momento, o ZFS diz que não há erros, mas também diz que está "reparando" esse disco:

 pool: sdb
 state: ONLINE
  scan: scrub in progress since Sun Jul 23 00:00:01 2017
    5.41T scanned out of 7.02T at 98.9M/s, 4h44m to go
    16.5K repaired, 77.06% done
config:

    NAME                                        STATE     READ WRITE CKSUM
    sdb                                         ONLINE       0     0     0
      ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N1366685  ONLINE       0     0     0  (repairing)
      ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N0K3PFPS  ONLINE       0     0     0
      ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N0M94AKN  ONLINE       0     0     0
    cache
      sde                                       ONLINE       0     0     0

errors: No known data errors

Os dados SMART parecem me dizer que está tudo bem depois de um teste curto, estou no meio da execução do longo autoteste agora para ver se isso surge com alguma coisa. A única coisa que salta é o UDMA_CRC_Error_Count , mas depois que eu consertei o cabo SATA, ele não aumentou.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   195   175   021    Pre-fail  Always       -       5233
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       625
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   069   069   000    Old_age   Always       -       22931
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       625
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       581
193 Load_Cycle_Count        0x0032   106   106   000    Old_age   Always       -       283773
194 Temperature_Celsius     0x0022   118   109   000    Old_age   Always       -       32
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   133   000    Old_age   Always       -       1801
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     22931         -

Além disso, também estou recebendo notificações sobre erros de E / S do ZFS, embora de acordo com isso é apenas um bug relacionado ao tempo de inatividade / aceleração da unidade.

eid: 71 class: io host: server time: 2017-07-23 15:57:49-0500 vtype: disk vpath: /dev/disk/by-id/ata-WDC_WD30EFRX-68EUZN0_WD-WMC4N1366685-part1 vguid: 0x979A2C1464C41735 cksum: 0 read: 0 write: 0 pool: sdb

Minha pergunta principal é como eu deveria estar preocupado com essa motivação? Estou inclinado a substituí-la por segurança, mas diminuiu em saber em quanto tempo eu preciso.

Aqui estão as possibilidades que estou pensando podem explicar a discrepância entre dados SMART e ZFS / kernel:

  1. O erro de erro do ZFS io faz o kernel pensar que há setores defeituosos, mas, de acordo com a SMART, não há nenhum.
  2. O ZFS continua consertando essa unidade (relacionado a erros anteriores com cabo defeituoso), que também pode apontar para uma falha na unidade, apesar dos dados SMART.
  3. O erro é um alarme falso e relacionou este bug no Ubuntu não corrigido li>

EDIT: Agora eu percebi que os bons drives estão na versão de firmware 82.00A82, enquanto o que está recebendo os erros é 80.00A80. De acordo com o fórum da Western Digital, não há como atualizar o firmware desse modelo específico. Tenho certeza de que não está ajudando também.

    
por 4oo4 23.07.2017 / 23:45

1 resposta

0

No final, são os seus dados, então você seria o único a dizer se a unidade deveria ser substituída ou não. No final, é só ferrugem.

No entanto, devo salientar que parece que você criou um pool cat / RAID0, portanto, se uma unidade falhar, você perderá tudo. E sem um espelho, o ZFS não consegue reparar nenhum arquivo com falha - apenas relate-os.

Se você estiver vendo as mensagens de erro enviadas ao syslog enquanto o scrub está sendo executado, talvez as taxas das unidades estejam sendo tributadas enquanto a verificação das somas de verificação do ZFS. E como nem todos os dados são acessados, o scrub pode estar atingindo um bloco que a unidade julga necessário ser realocado. Ou barulho na linha. E não estou me referindo a Brendan Gregg gritando com discos. ; o) Você notou um problema no cabo, talvez um problema de controlador ou porta também esteja no mix?

Você também observou um fórum da Western Digital. Eu vi muitas "reclamações" em drives de consumidor que não estão jogando bem com RAID de software ou hardware. Se os seus dados forem importantes, você pode considerar o uso de um espelho e, possivelmente, até mesmo um espelho de 3 direções, pois os discos não são muito e algo mais pode falhar durante uma reconstrução / resilver.

No que diz respeito a "dados inteligentes", o veredicto é sobre o quão "inteligente" ou útil é. Eu vi drives passar os testes de fornecedores, mas ser inútil.

    
por 01.08.2017 / 22:12