Mensagem de erro do disco rígido no Virtual Root Server

1

Após percebermos uma carga alta em nosso servidor raiz virtual (2 x 1 TB de um subconjunto de RAID 1), encontrei essas mensagens em / var / log / messages (CentOS):

kernel: ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
kernel: ata3.00: failed command: WRITE DMA
kernel: ata3.00: cmd ca/00:10:e0:1b:01/00:00:00:00:00/e1 tag 18 dma 8192 out
kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
kernel: ata3.00: status: { DRDY }
kernel: ata3: hard resetting link
kernel: Clocksource tsc unstable (delta = -25761696872 ns)
kernel: ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
kernel: ata3.00: configured for UDMA/100
kernel: ata3.00: device reported invalid CHS sector 0
kernel: ata3: EH complete

Poderia alguém trazer alguma luz para ele? É um problema sério de disco rígido ou algo mais? Como posso verificar a integridade do disco rígido virtual (sem o recurso SMART)?

    
por hellcode 27.08.2014 / 15:03

1 resposta

2

O disco não respondeu a tempo e foi redefinido pelo sistema operacional, isso pode significar muitas coisas, mas as duas mais comuns são:

  1. Erro de mídia - alguns locais no disco não podem ser lidos ou gravados em
  2. Erros de link - cabo inválido

Este erro específico sem erros anteriores em outros erros ou latência aumentada pode indicar o erro de mídia. Você pode usar o smartctl para ver se há erros de CRC nos contadores inteligentes para muito embora.

Se for um erro de mídia, o disco está com problemas, pois o comando que falhou é uma gravação. Normalmente as gravações não falham com erro de mídia e são as leituras posteriores que falham. Pode ser que uma leitura anterior tenha demorado um pouco demais e a gravação tenha sido vítima do tempo limite. Eu também vi isso acontecer.

Você também deve notar que o link foi renegociado para 1.5 Gbps, se esta for a primeira falha, você tem um problema de link, se esta for a terceira ou mais falhas de seu tipo, isso indica o mau comportamento que eu já vi no Linux que tenta aliviar as reinicializações com uma velocidade reduzida, mesmo que a falha não seja um problema de link, mas um erro de mídia.

Itens de ação:

  • Verifique se há erros de CRC inteligentes
  • Verifique quantos erros você teve no passado
  • Se você quiser recuperar a velocidade de 3Gbps, reinicie
  • Verifique se você tem a mensagem "NCQ desativado devido a erros excessivos" em seus registros, isso pode explicar uma lentidão do disco, mas não o problema do disco em si
  • Verifique se você tem backup, pois pode muito bem ser que seu disco esteja falhando
por 27.08.2014 / 20:36