Problemas com SSD: aumento de erros de CRC, congelamento, às vezes somente leitura

6

Meu laptop SSD está agindo e o número de erros disparou desde o Última vez que publiquei .

Esta pulsão está morta / morrendo?
É agora e estou escrevendo isso - eu tenho todos os meus dados backup e tudo, mas ainda não tenho certeza se é utilizável ou não?

Entrar em contato com o fabricante não ajudou muito: eles me pediram para instalar o Windows e executar o utilitário de verificação de disco de lá ou conectá-lo como uma unidade externa a um host Windows e testá-lo lá.
Eu fiz os dois e nenhum erro foi encontrado.

Também verifiquei o utilitário que eles fornecem (veja a captura de tela abaixo). Eu então usei a imagem que fiz com o clonezilla para retornar ao Ubuntu, e descobri que a contagem de erros do SATA PHY está se aproximando de 300 erros!

Também verifiquei os conectores, mas como o SSD está em um laptop, não consigo alterar o cabo (facilmente).

Estes são os resultados do teste gerados pela utilidade do fabricante

E a saída smartctl no Ubuntu, depois:

smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.14.0-041400-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     SPCC Solid State Disk
Serial Number:    XXXXXXXXXX
Firmware Version: S9FM02.8
User Capacity:    120,034,123,776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Feb 18 02:22:56 2018 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (   30) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    (   2) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000a   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       6352
 12 Power_Cycle_Count       0x0012   100   100   000    Old_age   Always       -       2717
168 Unknown_Attribute       0x0012   100   100   000    Old_age   Always       -       0
170 Unknown_Attribute       0x0013   100   100   010    Pre-fail  Always       -       25
173 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       105447539
192 Power-Off_Retract_Count 0x0012   100   100   000    Old_age   Always       -       77
194 Temperature_Celsius     0x0023   070   070   000    Pre-fail  Always       -       30
196 Reallocated_Event_Count 0x0000   100   100   000    Old_age   Offline      -       0
218 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       15431
241 Total_LBAs_Written      0x0012   100   100   000    Old_age   Always       -       6281157

SMART Error Log Version: 1
ATA Error Count: 298 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 298 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:08.077  [VENDOR SPECIFIC]
  ca 00 80 b0 8f 12 e1 00      00:11:08.076  WRITE DMA
  ca 00 80 30 8f 12 e1 00      00:11:08.076  WRITE DMA
  ca 00 80 b0 8e 12 e1 00      00:11:08.075  WRITE DMA
  ca 00 80 30 8e 12 e1 00      00:11:08.074  WRITE DMA

Error 297 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:08.039  [VENDOR SPECIFIC]
  ca 00 80 b0 7c 12 e1 00      00:11:08.038  WRITE DMA
  ca 00 80 30 7c 12 e1 00      00:11:08.038  WRITE DMA
  ca 00 80 b0 7b 12 e1 00      00:11:08.037  WRITE DMA
  ca 00 80 30 7b 12 e1 00      00:11:08.037  WRITE DMA

Error 296 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.974  [VENDOR SPECIFIC]
  ca 00 80 b0 48 12 e1 00      00:11:07.973  WRITE DMA
  ca 00 80 30 48 12 e1 00      00:11:07.972  WRITE DMA
  ca 00 80 b0 47 12 e1 00      00:11:07.972  WRITE DMA
  ca 00 80 30 47 12 e1 00      00:11:07.972  WRITE DMA

Error 295 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.927  [VENDOR SPECIFIC]
  ca 00 80 b0 2a 12 e1 00      00:11:07.926  WRITE DMA
  ca 00 80 30 2a 12 e1 00      00:11:07.925  WRITE DMA
  ca 00 80 b0 29 12 e1 00      00:11:07.925  WRITE DMA
  ca 00 80 30 29 12 e1 00      00:11:07.924  WRITE DMA

Error 294 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.899  [VENDOR SPECIFIC]
  ca 00 80 b0 22 12 e1 00      00:11:07.898  WRITE DMA
  ca 00 80 30 22 12 e1 00      00:11:07.897  WRITE DMA
  ca 00 80 b0 21 12 e1 00      00:11:07.897  WRITE DMA
  ca 00 80 30 21 12 e1 00      00:11:07.896  WRITE DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      6288         -
# 2  Conveyance offline  Completed without error       00%      6285         -
# 3  Short offline       Completed without error       00%      6285         -
# 4  Extended offline    Completed without error       00%      6283         -
# 5  Extended offline    Completed without error       00%      6283         -
# 6  Short offline       Completed without error       00%      6283         -
# 7  Extended offline    Completed without error       00%      6262         -
# 8  Conveyance offline  Completed without error       00%      6262         -
# 9  Conveyance offline  Completed without error       00%      6262         -
#10  Extended offline    Completed without error       00%      6262         -
#11  Short offline       Completed without error       00%      6262         -
#12  Conveyance offline  Completed without error       00%      6211         -
#13  Extended offline    Completed without error       00%      6211         -
#14  Short offline       Completed without error       00%      6211         -
#15  Short offline       Completed without error       00%      6075         -
#16  Conveyance offline  Completed without error       00%      5564         -
#17  Extended offline    Completed without error       00%      5564         -
#18  Short offline       Completed without error       00%      5564         -
#19  Conveyance offline  Completed without error       00%      5319         -
#20  Short offline       Completed without error       00%      5319         -
#21  Conveyance offline  Completed without error       00%      4403         -

SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
    
por Muaad ElSharif 09.02.2018 / 19:09

4 respostas

6

Substitua seu SSD

As pessoas já tentaram muitas coisas nos comentários, mas este SSD parece ter alguns problemas.

A julgar pelas leituras de S.M.A.R.T, sua unidade não viu muita ação (~ 250 de potência em dias, ~ 6 TB por escrito) e você diz que tem cerca de 2 anos de idade. Isso deve estar dentro da garantia!

Meu conselho é

  • faça backup de todos os seus dados imediatamente (embora você diga que já cobriu isso)
  • remover / substituir o SSD (dependendo do seu orçamento, claro)
  • envia o disco ao fabricante para substituição

O seu disco " Slim S70 " deve ser coberto pela garantia de 5 anos do Silicon Power

Basta enviar a solicitação de RMA aqui

    
por Robert Riedl 19.02.2018 / 15:19
3

Algum tempo antes de 11 de maio de 2017, você atualizou seu firmware do SSD. No entanto, uma nova versão foi lançada em setembro de 2017 e você deve aplicá-la usando o Windows.

Execute fstrim para descartar blocos não utilizados no sistema de arquivos:

$ sudo fstrim --verbose --all
/mnt/c: 16 EiB (18446744073709551615 bytes) trimmed
/mnt/e: 16 EiB (18446744073709551615 bytes) trimmed
/: 23.4 GiB (25132920832 bytes) trimmed

No meu caso, os resultados para as partições do Windows 10 /mnt/c e /mnt/e estavam fora deste mundo. Então eu verifiquei os arquivos e nenhum dano foi feito aos dados.

Execute fsck -f no seu SSD após inicializar com um Live-USB quando a partição não estiver montada. Outra opção é executar fsck -f do grub - esta resposta aponta, uma conexão frouxa também pode causar erros . Para descartar uma conexão ruim / solta, remova os plugues do seu SSD, sopre ar comprimido sobre eles e os pinos machos na unidade e recoloque os cabos com firmeza.

Quanto vale o seu tempo?

A última pergunta é quanto vale o seu tempo. Supondo que você tenha gasto 10 horas com esse problema, ele funciona para US $ 5 / hora, porque muitos SSDs SATA III de 120GB podem ser adquiridos em ebay.com

Atualização de 23/2018 de fevereiro

Eu leio todas as outras respostas hoje à noite. Uma resposta diz para devolvê-lo. Mas se você fizer isso e eles não encontrarem nada de errado, eles simplesmente o enviarão de volta e você ficará sem carro por 2 semanas a 2 meses.

Outra resposta diz que o smartctl informa que não há nada errado com a unidade.

Nesta resposta, sugeri executar fsck -f e você respondeu que nenhum erro foi relatado.

Executar fsck a cada inicialização

Como um compromisso entre a resposta negativa (retorná-lo) e a resposta positiva (nada está errado), minha inclinação seria para execute fsck em cada inicialização . Se um erro for descoberto, a inicialização será pausada e você poderá ler a mensagem de erro. Para resumir o uso do link:

sudo tune2fs -c 1 /dev/sdX

Observação: substitua X pela sua letra de unidade, ou seja, a , b , etc. .

Se após um mês sem erros, altere o valor de 1 para 30 , o que é típico para a maioria dos sistemas em que acredito. Em um SSD típico, o fsck será executado rapidamente.

Limpe e reajuste os cabos SATA

Outros mencionaram a substituição do cabo SATA, que é problemático para um laptop. Como um compromisso, considere desconectar todos os cabos do lado da unidade, usando ar comprimido nas extremidades macho e fêmea e, em seguida, conecte os cabos de volta com firmeza.

    
por WinEunuuchs2Unix 17.02.2018 / 23:02
2

Não há nada errado com o seu disco. Todos os testes são aprovados. Você está simplesmente interpretando mal os dados SMART.

Em primeiro lugar, a primeira captura de tela contém dados brutos e você não pode tirar nenhuma conclusão sobre isso. Eu não tenho ideia do uso que seu criador acha que os dados seriam para ninguém, mas isso realmente não significa nada. A menos que as colunas significativas possam ser acessadas rolando para a direita na janela ou algo assim.

Deixe-me explicar as colunas no relatório SMART (o último relatório que você postou).

  • Nome do atributo: nome da métrica
  • Valor: valor atual, maior é melhor. Os valores são frequentemente de 100, onde 100 = melhor, mas pode usar qualquer escala, desde que maior é melhor. Mesmo que a métrica seja algo como "taxa de erro", ela é normalizada, portanto, valores mais altos significam taxas de erro menores.
  • Pior: pior valor observado, maior é melhor.
  • Thresh: se o valor cair abaixo disso, é uma condição de falha. No ou acima = passar.
  • Tipo: o que uma condição de falha significaria para essa métrica.
    • Old_age: essa métrica é indicativa da idade / uso da unidade, não de um problema específico.
    • Pré-falha: essa métrica é indicativa de um possível problema com a unidade, aumentando a chance de falha da unidade.
  • When_failed: quando isso entrou no modo de falha, se alguma vez
  • Raw_value: medida interna do drive que contribuiu para o valor - isso não é útil para o usuário final e valores menores ou mais altos não indicam necessariamente melhor ou pior.

Para abordar algumas áreas específicas do relatório:

  

Resultado do teste de autoavaliação de saúde geral SMART: PASSED

Isso reflete tudo que passou. Nenhuma das métricas medidas já entrou em um estado de falha.

O log de "erros" é relativamente típico para uma unidade. Estes não indicam necessariamente erros irrecuperáveis ou mesmo problemas com a própria unidade; seus relatórios são vagos, então você não pode dizer o que realmente aconteceu a partir disso, exceto que foi durante a transferência de DMA no controlador, mas se algo for importante, isso será refletido no relatório de integridade geral. Em particular, estes podem ser algo bastante inocente, como as gravações que foram canceladas no final do controlador, ou o sistema operacional solicitando algum recurso durante o carregamento que a unidade não suporta, o que pode ser totalmente normal ao testar os recursos do dispositivo.

Por fim, uma observação sobre erros de CRC ou taxas de erro: todas as unidades têm uma taxa de erro. As unidades armazenam dados em densidades tão altas que um determinado número de erros de bit é esperado e projetado, usando o código de correção de erros. O código de correção de erros garante que um certo número de erros de bit por pedaço de bits possa ocorrer e seja 100% corrigido. O drive está constantemente aplicando o código de correção de erros o tempo todo, e o código de correção de erro é projetado para que a chance de um erro irrecuperável ocorrer aleatoriamente seja muito baixa (como em, significativamente menos provável do que ganhar o código) loteria) em uma unidade que funcione bem. Se você vir uma taxa de erro em qualquer estatística e ela for tratada como não é grande coisa, é porque não é, serão apenas erros corrigidos.

    
por thomasrutter 22.02.2018 / 14:58
0

Como você tem apenas erros WRITE DMA, e testes curtos e longos não mostram erros.

Como o DMA é sobre o acesso direto à memória, tente descobrir se o BIOS tem um teste de diagnóstico de hardware separado e tente os testes relacionados à memória.

Se não houver um teste integrado do BIOS, consulte o site de suporte do fabricante se um diagnóstico de hardware offline estiver disponível (por exemplo: arquivo ISO inicializável para gravação em CD ou pendrive)

(BTW: Um CD do Ubuntu também possui diagnósticos de memória)

Como o DMA write é IO, eu tentaria substituir o cabo SATA e verificar se nenhum novo número de erro foi adicionado depois disso (o último está aqui 298, mas é possível adicionar mais bynow)

    
por jringoot 22.02.2018 / 14:38