Eu tenho um disco WD Red 4 TB (WD40EFRX-68WT0N0, firmware 82.00A82) que ocasionalmente exibe erros de leitura incorrigíveis no log de erros da SMART, por exemplo:
Error 43 [18] occurred at disk power-on lifetime: 13157 hours (548 days + 5 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER -- ST COUNT LBA_48 LH LM LL DV DC
-- -- -- == -- == == == -- -- -- -- --
40 -- 51 00 00 00 00 00 02 e9 e0 40 00 Error: UNC at LBA = 0x0002e9e0 = 190944
Commands leading to the command that caused the error were:
CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name
-- == -- == -- == == == -- -- -- -- -- --------------- --------------------
60 01 00 00 08 00 00 00 02 ea 48 40 00 12d+15:42:14.157 READ FPDMA QUEUED
60 00 e0 00 00 00 00 00 02 e9 68 40 00 12d+15:42:14.157 READ FPDMA QUEUED
60 00 e0 00 08 00 00 00 02 e8 88 40 00 12d+15:42:10.216 READ FPDMA QUEUED
60 01 00 00 00 00 00 00 02 e7 88 40 00 12d+15:42:10.215 READ FPDMA QUEUED
60 01 00 00 08 00 00 00 02 e6 88 40 00 12d+15:42:07.629 READ FPDMA QUEUED
(relatório completo do smartctl aqui )
Com o erro mais recente, o zpool status informa o seguinte:
$ zpool status cloudpool
pool: cloudpool
state: ONLINE
status: One or more devices has experienced an unrecoverable error. An
attempt was made to correct the error. Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
using 'zpool clear' or replace the device with 'zpool replace'.
see: http://zfsonlinux.org/msg/ZFS-8000-9P
scan: scrub repaired 0B in 3h57m with 0 errors on Wed Oct 17 03:53:57 2018
config:
NAME STATE READ WRITE CKSUM
cloudpool ONLINE 0 0 0
mirror-0 ONLINE 0 0 0
ata-ST8000VN0022-2EL112_ZA17FZXF ONLINE 0 0 0
ata-ST8000VN0022-2EL112_ZA17H5D3 ONLINE 0 0 0
mirror-1 ONLINE 0 0 0
ata-WDC_WD40EFRX-68WT0N0_WD-WCC4E5NFLRU3 ONLINE 1 0 0
ata-ST4000VN000-2AH166_WDH0KMHT ONLINE 0 0 0
mirror-2 ONLINE 0 0 0
ata-WDC_WD30EFRX-68EUZN0_WD-WCC4N3EHHA2E ONLINE 0 0 0
ata-ST3000DM001-1CH166_Z1F1HL4V ONLINE 0 0 0
errors: No known data errors
(anteriormente, algumas execuções do zpool scrub informaram que ele reparou alguns dados, mas esta é a primeira vez que vejo esse novo status).
No entanto, executar os testes SMART curtos, de transmissão e estendidos não revela nada de errado.
Eu também achei que a contagem de ciclos Load / Unload era suspeitamente alta, mas esta é uma unidade Red, não uma Green, e a ferramenta oficial da WD (wd5741.exe) relata que não há nada a fazer.
Então eu tenho uma unidade que está prestes a morrer / precisa ser substituída, ou isso é apenas uma realocação ocasional do setor?