SSD SMART erros e erros estranhos dmesg, isso é um disco morrendo?

3

Eu comecei a perceber coisas estranhas no meu dmesg log e meu SSD de 4 meses. Por exemplo:

[    9.647535] ata7.00: exception Emask 0x10 SAct 0x7ffffbff SErr 0x300000 action 0x6 frozen
[    9.647542] ata7.00: irq_stat 0x08000000, interface fatal error
[    9.647546] ata7: SError: { Dispar BadCRC }
[    9.647551] ata7.00: failed command: READ FPDMA QUEUED
[    9.647558] ata7.00: cmd 60/b0:00:18:51:0f/03:00:07:00:00/40 tag 0 ncq 483328 in
[    9.647558]          res 40/00:18:c8:5c:0f/00:00:07:00:00/40 Emask 0x10 (ATA bus error)
[    9.647561] ata7.00: status: { DRDY }
[    9.647564] ata7.00: failed command: READ FPDMA QUEUED
[    9.647570] ata7.00: cmd 60/00:08:c8:54:0f/04:00:07:00:00/40 tag 1 ncq 524288 in
[    9.647570]          res 40/00:18:c8:5c:0f/00:00:07:00:00/40 Emask 0x10 (ATA bus error)
[    9.647573] ata7.00: status: { DRDY }

Também percebi que meus valores SMART são estranhos:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       16
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       23

Runtime bad block parece ser estável, mas aparece que o erro UCR CRC está aumentando após cada reinicialização (provavelmente devido a Dispar BadCRC acima), o que não é legal ..

Depois de pesquisar on-line, tentei substituir o cabo SATA, mas parece que não ajudou.

Uma vez que o sistema está ativo, eu realmente não consigo notar nada diferente, tudo parece estar funcionando, mas eu não posso ter certeza já que é o disco do sistema e não está sendo escrito para tanto.

Eu vi esta dica sobre como desabilitar o NCQ , mas eu tenho dois outros discos lá que se beneficiar do NCQ, e não há nenhuma dica sobre como desativá-lo apenas para essa unidade.

Este é um disco que está morrendo? Alguma ideia de como descobrir a causa?

Aqui estão as outras linhas estranhas do dmesg: link

E saída smartctl: link

EDITAR :

Isso também aconteceu enquanto a máquina estava em execução:

Jun 13 00:27:48 kernel: [21674.310312] ata7.00: exception Emask 0x10 SAct 0x400 SErr 0x100000 action 0x6 frozen
Jun 13 00:27:48 kernel: [21674.310317] ata7.00: irq_stat 0x08000000, interface fatal error
Jun 13 00:27:48 kernel: [21674.310320] ata7: SError: { Dispar }
Jun 13 00:27:48 kernel: [21674.310323] ata7.00: failed command: READ FPDMA QUEUED
Jun 13 00:27:48 kernel: [21674.310327] ata7.00: cmd 60/00:50:00:36:4f/01:00:00:00:00/40 tag 10 ncq 131072 in
Jun 13 00:27:48 kernel: [21674.310327]          res 40/00:50:00:36:4f/00:00:00:00:00/40 Emask 0x10 (ATA bus error)
Jun 13 00:27:48 kernel: [21674.310329] ata7.00: status: { DRDY }
Jun 13 00:27:48 kernel: [21674.310333] ata7: hard resetting link
Jun 13 00:27:49 kernel: [21674.802471] ata7: SATA link up 6.0 Gbps (SStatus 133 SControl 330)
Jun 13 00:27:49 kernel: [21674.843512] ata7.00: configured for UDMA/133
Jun 13 00:27:49 kernel: [21674.845404] ata7: EH complete

De acordo com este link , a PSU pode ser a causa ...?

EDIT 2

Tentei mudar as coisas um pouco hoje, todos os meus discos estavam no mesmo cabo PSU, agora eles não estão, mas não parece ajudar ..

Runtime_Bad_Block       18
UDMA_CRC_Error_Count    25
    
por dr Hannibal Lecter 12.06.2015 / 21:28

1 resposta

0

Vários dias depois de mover todos os meus discos para o controlador SATA interno, os erros desapareceram e os valores SMART não aumentaram.

Agora, resta saber se isso foi uma incompatibilidade específica entre meu SSD e o controlador da Marvell, ou se o controlador morreu completamente; que é provavelmente o que está acontecendo ... mas isso é assunto para outro dia.

    
por 19.06.2015 / 20:06