SSD leu erros; eu deveria estar preocupado?

1

Um SSD com pouco mais de um mês está produzindo erros de leitura no meu syslog sempre que o rsync faz o backup:

[276877.360221] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
[276877.360226] ata1.00: irq_stat 0x40000008
[276877.360229] ata1.00: failed command: READ FPDMA QUEUED
[276877.360234] ata1.00: cmd 60/10:00:78:a2:27/00:00:07:00:00/40 tag 0 ncq 8192 in
[276877.360234]          res 41/40:00:78:a2:27/00:00:07:00:00/40 Emask 0x409 (media error) <F>
[276877.360238] ata1.00: status: { DRDY ERR }
[276877.360240] ata1.00: error: { UNC }
[276877.360686] ata1.00: configured for UDMA/100
[276877.360697] sd 0:0:0:0: [sda] Unhandled sense code
[276877.360699] sd 0:0:0:0: [sda]  
[276877.360701] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[276877.360703] sd 0:0:0:0: [sda]  
[276877.360705] Sense Key : Medium Error [current] [descriptor]
[276877.360708] Descriptor sense data with sense descriptors (in hex):
[276877.360709]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
[276877.360717]         07 27 a2 78 
[276877.360721] sd 0:0:0:0: [sda]  
[276877.360724] Add. Sense: Unrecovered read error - auto reallocate failed
[276877.360727] sd 0:0:0:0: [sda] CDB: 
[276877.360728] Read(10): 28 00 07 27 a2 78 00 00 10 00
[276877.360735] end_request: I/O error, dev sda, sector 120038008
[276877.360750] ata1: EH complete
[276877.361389] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
[276877.361392] ata1.00: irq_stat 0x40000008
[276877.361395] ata1.00: failed command: READ FPDMA QUEUED
[276877.361400] ata1.00: cmd 60/08:00:78:a2:27/00:00:07:00:00/40 tag 0 ncq 4096 in
[276877.361400]          res 41/40:00:78:a2:27/00:00:07:00:00/40 Emask 0x409 (media error) <F>
[276877.361403] ata1.00: status: { DRDY ERR }
[276877.361405] ata1.00: error: { UNC }
[276877.361841] ata1.00: configured for UDMA/100
[276877.361847] sd 0:0:0:0: [sda] Unhandled sense code
[276877.361850] sd 0:0:0:0: [sda]  
[276877.361851] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[276877.361853] sd 0:0:0:0: [sda]  
[276877.361855] Sense Key : Medium Error [current] [descriptor]
[276877.361857] Descriptor sense data with sense descriptors (in hex):
[276877.361858]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
[276877.361867]         07 27 a2 78 
[276877.361871] sd 0:0:0:0: [sda]  
[276877.361873] Add. Sense: Unrecovered read error - auto reallocate failed
[276877.361875] sd 0:0:0:0: [sda] CDB: 
[276877.361876] Read(10): 28 00 07 27 a2 78 00 00 08 00
[276877.361883] end_request: I/O error, dev sda, sector 120038008
[276877.361893] ata1: EH complete
[276880.336132] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
[276880.336140] ata1.00: irq_stat 0x40000008
[276880.336147] ata1.00: failed command: READ FPDMA QUEUED
[276880.336157] ata1.00: cmd 60/08:00:78:a2:27/00:00:07:00:00/40 tag 0 ncq 4096 in
[276880.336157]          res 41/40:00:78:a2:27/00:00:07:00:00/40 Emask 0x409 (media error) <F>
[276880.336163] ata1.00: status: { DRDY ERR }
[276880.336167] ata1.00: error: { UNC }
[276880.336660] ata1.00: configured for UDMA/100
[276880.336670] sd 0:0:0:0: [sda] Unhandled sense code
[276880.336672] sd 0:0:0:0: [sda]  
[276880.336674] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[276880.336675] sd 0:0:0:0: [sda]  
[276880.336677] Sense Key : Medium Error [current] [descriptor]
[276880.336679] Descriptor sense data with sense descriptors (in hex):
[276880.336680]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
[276880.336687]         07 27 a2 78 
[276880.336690] sd 0:0:0:0: [sda]  
[276880.336692] Add. Sense: Unrecovered read error - auto reallocate failed
[276880.336694] sd 0:0:0:0: [sda] CDB: 
[276880.336695] Read(10): 28 00 07 27 a2 78 00 00 08 00
[276880.336701] end_request: I/O error, dev sda, sector 120038008
[276880.336709] ata1: EH complete

Além disso, o disco parece estar funcionando bem. Isso é um sinal de um disco com falha ou apenas informações de depuração inofensivas?

    
por Rena 06.04.2013 / 10:28

3 respostas

4

Está morto, Jim.

Substitua o hardware ofensivo.

É claro que, como você está usando uma placa-mãe de baixo custo (DEAR GOD WHY?), você pode passar um momento testando se o controlador ou o cabo da unidade falhou.

    
por 06.04.2013 / 17:50
1

Por um lado, eu provavelmente tentaria cavar a documentação da unidade primeiro. Por outro lado, eu provavelmente consideraria uma mensagem de erro que dizia "Erro de leitura não recuperada - falha na realocação automática", indicando que a unidade deve ser considerada culpada até que se prove ser inocente. E eu pegaria os dados imediatamente.

Agora, com apenas um mês, ele ainda deve estar na garantia. O caminho mais rápido a seguir talvez seja tentar devolvê-lo para substituição ou reembolso usando esses erros de leitura não recuperados como justificativa.

O fabricante pode substituir a unidade, independentemente de os erros serem significativos - manter os clientes satisfeitos. Mas se é um erro comum, e não é significativo, eles provavelmente vão te dizer. Caso contrário, eles correm o risco de apenas inventariar o estoque para todos os compradores no mercado. (Todo comprador que é um administrador de sistema, de qualquer forma.)

Pode ser que o problema esteja relacionado ao uso de uma unidade de nível de consumidor em um servidor. (De acordo com o site da Adata, sua unidade não é uma unidade de nível de servidor.) Eu diria que você tem pelo menos três pequenos projetos no futuro imediato.

  1. Obtenha os dados dessa unidade.
  2. Receba um reembolso ou uma substituição, de preferência um reembolso.
  3. Desenvolva uma política que facilite a tomada de decisões melhores sobre a compra de hardware de servidor.
por 06.04.2013 / 11:26
0

A unidade perdeu seus dados, você poderia, é claro, substituí-la, mas se você quiser continuar usando a unidade (com risco de perda futura de dados novamente), você pode tentar escrever zeros nesse local. Isso é o que uma configuração de RAID faria por você, ele descobriria que não pode ler, zerar o local e recuperar os dados da estrutura de RAID e, em seguida, reescrevê-los de volta no lugar ruim.

Se você usar o dispositivo por conta própria, as recomendações acima para substituí-lo com ou sem garantia são muito sensatas. Se você perdeu os dados uma vez, provavelmente fará isso novamente.

    
por 30.08.2014 / 09:06