O que esses erros de disco significam no syslog?

12

Eu apenas reiniciei meu servidor de monitoramento pela primeira vez em pouco tempo, e o seguinte começou a preencher a tela:

Jul 11 23:52:30 monit kernel: [   25.255908] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jul 11 23:52:30 monit kernel: [   25.256170] ata1.00: BMDMA stat 0x24
Jul 11 23:52:30 monit kernel: [   25.256278] ata1.00: failed command: READ DMA
Jul 11 23:52:30 monit kernel: [   25.256410] ata1.00: cmd c8/00:c0:20:68:35/00:00:00:00:00/e0 tag 0 dma 98304 in
Jul 11 23:52:30 monit kernel: [   25.256416]          res 51/40:9f:41:68:35/00:00:00:00:00/e0 Emask 0x9 (media error)
Jul 11 23:52:30 monit kernel: [   25.256809] ata1.00: status: { DRDY ERR }
Jul 11 23:52:30 monit kernel: [   25.256933] ata1.00: error: { UNC }
Jul 11 23:52:30 monit kernel: [   25.304388] ata1.00: configured for UDMA/66
Jul 11 23:52:30 monit kernel: [   25.304430] ata1: EH complete

. . . 

Jul 11 23:52:30 monit kernel: [   25.552451] sd 0:0:0:0: [sda] Unhandled sense code
Jul 11 23:52:30 monit kernel: [   25.552462] sd 0:0:0:0: [sda]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 11 23:52:30 monit kernel: [   25.552475] sd 0:0:0:0: [sda]  Sense Key : Medium Error [current] [descriptor]
Jul 11 23:52:30 monit kernel: [   25.552490] Descriptor sense data with sense descriptors (in hex):
Jul 11 23:52:30 monit kernel: [   25.552498]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Jul 11 23:52:30 monit kernel: [   25.552529]         00 35 68 41 
Jul 11 23:52:30 monit kernel: [   25.552543] sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed
Jul 11 23:52:30 monit kernel: [   25.552559] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 35 68 20 00 00 c0 00
Jul 11 23:52:30 monit kernel: [   25.552587] end_request: I/O error, dev sda, sector 3500097
Jul 11 23:52:30 monit kernel: [   25.556607] ata1: EH complete

Eu já sei que preciso substituir o HDD (Cost of Data > Custo do HDD), mas quero saber, pelo meu próprio conhecimento, o que está errado com ele.

Sim, nosso servidor de monitoramento não tem RAID, apenas um disco rígido ... Não olhe para mim ...

    
por Soviero 12.07.2012 / 07:07

5 respostas

16
sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed

Parece que o disco tem setores defeituosos e não é possível realocá-los (possivelmente porque não há setores sobressalentes). A saída de smartctl -a /dev/sda fornecerá mais informações sobre o estado da unidade.

    
por 12.07.2012 / 07:12
12

Lassie está dizendo "arf! arf arf! arf!". O que é burro, porque isso tem nada para fazer com poços Timmy ou . É por isso que você não aceita conselhos de sysadmin de cães.

O drive está dando a você um "erro de leitura não recuperada - falha na realocação automática", que basicamente significa "tentei ler, falhei, tentei me recuperar" (leia o setor mais algumas vezes, aplique um pouco de ECC e mova os dados para um setor que não está quebrado), e não funcionou ". Isso provavelmente significa (como diz mgorven) que o disco já está repleto de setores realocados, porque o disco está morrendo há algum tempo, mas também acho que pode significar que ele não conseguiu recuperar o setor (leituras repetidas). + ECC não conseguiu obter um bloco de dados de boa aparência).

De qualquer forma, sim, o disco é muito, muito cacto. Seus dados também não parecem muito saudáveis.

    
por 12.07.2012 / 07:15
1

Crie uma imagem dd ou uma cópia rsync desse disco agora ++, a menos que você tenha um backup completo que permita uma restauração conveniente dessa caixa. E comece a procurar por um disco de substituição compatível e funcional.

BTW, UDMA / 66, é um disco PATA de dez anos?

    
por 12.07.2012 / 09:25
1

Eu sei que isso é antigo, mas caso alguém ainda esteja lendo este post: "O DD também tentará ler o (s) setor (es) quebrado (s)" - o gddrescue é útil aqui. Não (ok, mas apenas uma vez).

    
por 10.04.2014 / 21:08
0

Como já mencionado, provavelmente significa que sua unidade está chegando ao fim da sua vida, mas não necessariamente imediatamente - você deve executar um fsck no disco e tentar reparar os erros (consulte wiki do smartmontools para conselhos sobre como consertar blocos ruins) e o disco pode ficar bem por mais algum tempo.

Mas você deve começar a executar smartd (que vem como parte do pacote smartmontools ) e ficar de olho nos relatórios e / ou configurar notificações por e-mail. Além disso, você pode adicionar suas próprias notificações personalizadas criando scripts (em /etc/smartmontools/run.d/ ) que são chamados pelo smartd-runner .

    
por 25.10.2017 / 21:44