Meu disco rígido está prestes a morrer?

5

Eu tenho dois discos rígidos configurados como uma matriz RAID 1 no meu servidor (Linux, RAID de software usando mdadm) e um deles acabou de me trazer esse "presente" no syslog:

Nov 23 02:05:29 h2 kernel: [7305215.338153] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Nov 23 02:05:29 h2 kernel: [7305215.338178] ata1.00: irq_stat 0x40000008
Nov 23 02:05:29 h2 kernel: [7305215.338197] ata1.00: failed command: READ FPDMA QUEUED
Nov 23 02:05:29 h2 kernel: [7305215.338220] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in
Nov 23 02:05:29 h2 kernel: [7305215.338221]          res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F>
Nov 23 02:05:29 h2 kernel: [7305215.338287] ata1.00: status: { DRDY ERR }
Nov 23 02:05:29 h2 kernel: [7305215.338305] ata1.00: error: { UNC }
Nov 23 02:05:29 h2 kernel: [7305215.358901] ata1.00: configured for UDMA/133
Nov 23 02:05:32 h2 kernel: [7305218.269054] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Nov 23 02:05:32 h2 kernel: [7305218.269081] ata1.00: irq_stat 0x40000008
Nov 23 02:05:32 h2 kernel: [7305218.269101] ata1.00: failed command: READ FPDMA QUEUED
Nov 23 02:05:32 h2 kernel: [7305218.269125] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in
Nov 23 02:05:32 h2 kernel: [7305218.269126]          res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F>
Nov 23 02:05:32 h2 kernel: [7305218.269196] ata1.00: status: { DRDY ERR }
Nov 23 02:05:32 h2 kernel: [7305218.269215] ata1.00: error: { UNC }
Nov 23 02:05:32 h2 kernel: [7305218.341565] ata1.00: configured for UDMA/133
Nov 23 02:05:35 h2 kernel: [7305221.193342] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Nov 23 02:05:35 h2 kernel: [7305221.193368] ata1.00: irq_stat 0x40000008
Nov 23 02:05:35 h2 kernel: [7305221.193386] ata1.00: failed command: READ FPDMA QUEUED
Nov 23 02:05:35 h2 kernel: [7305221.193408] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in
Nov 23 02:05:35 h2 kernel: [7305221.193409]          res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F>
Nov 23 02:05:35 h2 kernel: [7305221.193474] ata1.00: status: { DRDY ERR }
Nov 23 02:05:35 h2 kernel: [7305221.193491] ata1.00: error: { UNC }
Nov 23 02:05:35 h2 kernel: [7305221.388404] ata1.00: configured for UDMA/133
Nov 23 02:05:38 h2 kernel: [7305224.426316] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Nov 23 02:05:38 h2 kernel: [7305224.426343] ata1.00: irq_stat 0x40000008
Nov 23 02:05:38 h2 kernel: [7305224.426363] ata1.00: failed command: READ FPDMA QUEUED
Nov 23 02:05:38 h2 kernel: [7305224.426387] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in
Nov 23 02:05:38 h2 kernel: [7305224.426388]          res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F>
Nov 23 02:05:38 h2 kernel: [7305224.426459] ata1.00: status: { DRDY ERR }
Nov 23 02:05:38 h2 kernel: [7305224.426478] ata1.00: error: { UNC }
Nov 23 02:05:38 h2 kernel: [7305224.498133] ata1.00: configured for UDMA/133
Nov 23 02:05:41 h2 kernel: [7305227.400583] ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Nov 23 02:05:41 h2 kernel: [7305227.400608] ata1.00: irq_stat 0x40000008
Nov 23 02:05:41 h2 kernel: [7305227.400627] ata1.00: failed command: READ FPDMA QUEUED
Nov 23 02:05:41 h2 kernel: [7305227.400649] ata1.00: cmd 60/08:00:d8:df:da/00:00:3a:00:00/40 tag 0 ncq 4096 in
Nov 23 02:05:41 h2 kernel: [7305227.400650]          res 41/40:08:d8:df:da/00:00:3a:00:00/00 Emask 0x409 (media error) <F>
Nov 23 02:05:41 h2 kernel: [7305227.400716] ata1.00: status: { DRDY ERR }
Nov 23 02:05:41 h2 kernel: [7305227.400734] ata1.00: error: { UNC }
Nov 23 02:05:41 h2 kernel: [7305227.472432] ata1.00: configured for UDMA/133

Pelo que li até agora, não tenho certeza se erros de leitura significam que um disco rígido está morrendo em mim (sem erros de gravação até agora). Eu tive erros no disco rígido no passado e aqueles sempre tiveram erros sobre a falta de gravar em setores específicos nos logs. Não desta vez.

Devo estar substituindo a unidade? Alguma outra coisa poderia estar causando o problema?

Eu agendei um teste smartctl -t long que terminará em algumas horas. Espero que isso me dê mais informações.

ATUALIZAÇÃO: Algo como um milagre aconteceu. Detalhes abaixo:

Eu estava fazendo backup de alguns arquivos dessa máquina, preparando-me para substituir a unidade defeituosa. Então, enquanto eu copiava esses arquivos enormes, recebi este email de logcheck:

Security Events for kernel
=-=-=-=-=-=-=-=-=-=-=-=-=-
Nov 23 17:16:24 h2 kernel: [7359837.963597] end_request: I/O error, dev sdb, sector 1202093816
Nov 23 17:16:41 h2 kernel: [7359855.196334] end_request: I/O error, dev sdb, sector 1202093816

System Events
=-=-=-=-=-=-=
Nov 23 17:14:06 h2 kernel: [7359700.193114] ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Nov 23 17:14:06 h2 kernel: [7359700.193139] ata2.00: irq_stat 0x40000008
Nov 23 17:14:06 h2 kernel: [7359700.193158] ata2.00: failed command: READ FPDMA QUEUED
Nov 23 17:14:06 h2 kernel: [7359700.193180] ata2.00: cmd 60/08:00:58:03:aa/00:00:47:00:00/40 tag 0 ncq 4096 in
Nov 23 17:14:06 h2 kernel: [7359700.193181]          res 41/40:08:58:03:aa/00:00:47:00:00/00 Emask 0x409 (media error) <F>
Nov 23 17:14:06 h2 kernel: [7359700.193247] ata2.00: status: { DRDY ERR }
Nov 23 17:14:06 h2 kernel: [7359700.193265] ata2.00: error: { UNC }
Nov 23 17:14:06 h2 kernel: [7359700.194458] ata2.00: configured for UDMA/133

Oops! Meu cabelo, se eu tivesse um pouco na minha cabeça raspada, levantou-se. Veja, são verdadeiros setores defeituosos no disco segundo . O que agora? Com duas unidades defeituosas, o que eu faço?

Pensei um pouco e decidi que:

  • Teve uma unidade que suspeito estar com defeito
  • E outro que eu estou 100% certo de estar com defeito com as reclamações do setor ruim no log.

Então eu substituí o segundo, não o que eu originalmente postei a pergunta. Eu tinha várias partições, cada uma configurada em um RAID diferente, e esperava poder ressincronizar pelo menos as de raiz e de inicialização, para que eu não precisasse reinstalar tudo no servidor. Eu provavelmente teria que restaurar a enorme partição de dados do backup, mas bem, eu pouparia algum trabalho.

Substituiu a unidade, iniciou os resyncs. As partições raiz e de inicialização (cerca de 50 GB) ressincronizaram muito rápido. Sem erros. Eu sou um campista feliz!

Apenas por diversão, vamos tentar ressincronizar a enorme partição de dados - é cerca de 2 TB com 500 GB de dados. Eu comecei a ressincronização e assisti por um tempo. Pareceu demorar uma eternidade, e eu coloquei o servidor online, deixando os usuários usarem suas coisas. Ressincronização acontecendo em segundo plano. E, o que você sabe, cerca de 18 horas depois, a ressincronização acabou sem erros. O servidor está totalmente ativo agora.

Gostaria de saber se devo substituir a unidade original agora. Tenho certeza que o deus servidor dos discos rígidos está rindo de mim.

    
por Hristo Deshev 23.11.2012 / 16:13

2 respostas

10

Não está prestes a morrer .. Já está morto.

Substitua o ASAP e restaure a partir dos backups, se você perder algum dado.

    
por 23.11.2012 / 16:23
-2

Não é possível encontrar nenhuma fonte confiável para validar minha opinião, mas realmente acho que esse não é um dano de hardware . É mais um tipo de problema de recuperação de dados.

Se algum dado for gravado no disco como exatamente o mesmo local em que a operação de leitura falhou, ele deverá ser legível.

Assim, como nota final, os dados atuais podem não ser recuperáveis nessa unidade , mas como você tem uma matriz RAID, ainda é possível recuperar os dados da outra unidade e faça um backup, formate seu disco defeituoso e ressincronize seu array RAID.

Esse problema pode ocorrer por campos eletromagnéticos que alteram o conteúdo do disco rígido.

    
por 23.11.2012 / 16:33