erros de ATA de relatórios de disco SSD

2

Ontem recebi um relatório sobre erros SSD ATA em um dos meus hosts.

O disco SSD é 128MB OCZ-VERTEX4 Firmware rev 1.3 com cerca de 8 meses de idade.

OS é o Ubuntu 11.04 executando o kernel 2.6.38-16-genérico.

A placa-mãe é a Intel DP35DP.

Não há erros de leitura ou quaisquer outros erros de disco desde os dois abaixo.

Devo preparar uma unidade de substituição?

Atributos inteligentes:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x0000   ---   ---   ---    Old_age   Offline      -       393222
  3 Spin_Up_Time            0x0000   100   100   000    Old_age   Offline      -       0
  4 Start_Stop_Count        0x0000   100   100   000    Old_age   Offline      -       0
  5 Reallocated_Sector_Ct   0x0000   100   100   000    Old_age   Offline      -       0
  9 Power_On_Hours          0x0000   ---   ---   ---    Old_age   Offline      -       507536484
 12 Power_Cycle_Count       0x0000   ---   ---   ---    Old_age   Offline      -       1664100
232 Available_Reservd_Space 0x0000   100   100   000    Old_age   Offline      -       4804710657
233 Media_Wearout_Indicator 0x0000   099   000   000    Old_age   Offline      -       99

Registro do kernel:

Jun  1 11:50:42 kernel: [424453.095411] ata4: exception Emask 0x10 SAct 0x0 SErr 0x4010000 action 0xe frozen
Jun  1 11:50:42 kernel: [424453.095415] ata4: irq_stat 0x00400040, connection status changed
Jun  1 11:50:42 kernel: [424453.095418] ata4: SError: { PHYRdyChg DevExch }
Jun  1 11:50:42 kernel: [424453.095422] ata4: hard resetting link
Jun  1 11:50:42 kernel: [424453.840022] ata4: SATA link down (SStatus 0 SControl 300)
Jun  1 11:50:44 kernel: [424455.948532] ata4: hard resetting link
Jun  1 11:50:45 kernel: [424456.490021] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jun  1 11:50:45 kernel: [424456.490288] ata4.00: configured for UDMA/133
Jun  1 11:50:45 kernel: [424456.490294] ata4: EH complete

Jun  1 19:18:23 kernel: [451311.319525] ata4.00: exception Emask 0x10 SAct 0x0 SErr 0x4010000 action 0xe frozen
Jun  1 19:18:23 kernel: [451311.319529] ata4.00: irq_stat 0x00400040, connection status changed
Jun  1 19:18:23 kernel: [451311.319532] ata4: SError: { PHYRdyChg DevExch }
Jun  1 19:18:23 kernel: [451311.319535] ata4.00: failed command: FLUSH CACHE
Jun  1 19:18:23 kernel: [451311.319541] ata4.00: cmd e7/00:00:00:00:00/00:00:00:00:00/a0 tag 0
Jun  1 19:18:23 kernel: [451311.319542]          res 40/00:0c:78:c6:c7/00:00:0a:00:00/40 Emask 0x10 (ATA bus error)
Jun  1 19:18:23 kernel: [451311.319545] ata4.00: status: { DRDY }
Jun  1 19:18:23 kernel: [451311.319549] ata4: hard resetting link
Jun  1 19:18:23 kernel: [451312.060033] ata4: SATA link down (SStatus 0 SControl 300)
Jun  1 19:18:23 kernel: [451314.082062] ata4: hard resetting link
Jun  1 19:18:23 kernel: [451314.630022] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Jun  1 19:18:23 kernel: [451314.630295] ata4.00: configured for UDMA/133
Jun  1 19:18:23 kernel: [451314.630298] ata4.00: retrying FLUSH 0xe7 Emask 0x10
Jun  1 19:18:23 kernel: [451314.630320] ata4: EH complete
    
por AlexD 02.06.2013 / 20:38

2 respostas

2

É possível que o cabo seja ruim, mas também é possível que o firmware da unidade seja ruim. Também pode (muito raramente) acontecer como um one-off. Este erro é exibido quando a unidade não responde aos comandos ATA ou quando os dados não são recebidos corretamente.

Considere a substituição do cabo e verifique se há atualizações de firmware (e, se você não estiver fazendo backups, ontem é um bom momento para começar). Se você perceber isso acontecer novamente ou com mais frequência, precisará substituir a unidade.

Muito raramente, isso também pode ser um controlador IDE ruim (em sua placa RAID ou placa-mãe).

    
por 02.06.2013 / 22:25
1

Eu tive uma coisa semelhante acontecendo com o meu Vertex mais antigo e após o comando CACHE FLUSH com falha, o drive ficou inoperante até o ciclo de energia. Foi repetitivo. Parece que foi um bug no firmware da unidade e uma falha de segurança redefiniu a unidade para um estado de funcionamento.

    
por 03.06.2013 / 02:40

Tags