Como provavelmente é uma falha de hardware, analiso alguns diagnósticos de hardware.
Se você tiver um controlador RAID de hardware, eu descobriria se você pode ler seu log (se 3Ware, use tw_cli). E, quer você tenha RAID de hardware ou software, você pode observar os parâmetros SMART dos discos (se os discos estiverem conectados a um controlador RAID, você pode precisar de comandos especiais para acessá-los. Consulte a smartctl
manpage).
Se você fizer isso:
smartctl -a /dev/sdX
Eu sempre vejo principalmente:
- Contagem do setor realocado. É especialmente ruim quando está aumentando ao longo do tempo. E não confio totalmente em um disco que tenha setores realocados.
- Veja o log de erros da SMART. É complicado ler no início, mas o principal é ver se há eventos e a que horas (expressa em idade do disco em horas) eles ocorreram. Você pode ver a idade atual do disco como um dos parâmetros SMART. Se é recente, pode estar relacionado.
Além disso, fique de olho no dmesg e no syslog para ver se você tem erros ao longo do tempo. Por exemplo, erros de disco geralmente aparecem muito antes de ser um problema fatal como exceções de ata. Nós temos um servidor de registro central (usando rsyslog) que me notifica sobre exceções de ata. Um exemplo rápido de como configurar isso:
/etc/rsyslog.d/60-smtp.conf:
$ModLoad ommail
$ActionMailSMTPServer localhost
$ActionMailFrom [email protected]
/etc/rsyslog.d/70-mail-ata-errors:
$ActionMailTo [email protected]
$template mailSubjectATA,"ATA error on %hostname%"
$template mailBodyATA,"You have ATA errors. Mostly it's the disk and you get these errors before a possible mdraid setup kicks the drive.\r\nBEWARE: ata1.00 is first ata, first disk. Ata1.01 is first ata, second disk. Use the ata-to-device-names.sh script to identify devices.\r\n msg='%msg%'"
$ActionMailSubject mailSubjectATA
$ActionExecOnlyOnceEveryInterval 3600
:msg, regex, "ata.*exception" :ommail:;mailBodyATA
Consulte aqui para o script ata-to-devicenames .
Outra coisa que você pode fazer é um memtest. Os DVDs / CDs de instalação do Ubuntu têm aqueles no menu de inicialização, e eu acredito que qualquer servidor Ubuntu tenha um em seu menu de inicialização regular também. Vamos fazer pelo menos uma passagem, mais, se possível.
Você tem RAM ECC BTW? A RAM ECC é importante para a estabilidade a longo prazo e a integridade dos dados.