Como diferenciar reinicialização intencional e falta de energia de logs

2

Um dos meus hosts centos foi reiniciado recentemente, infelizmente, nenhum monitoramento foi implementado .

Como posso descobrir o que causou a reinicialização? Eu só tenho acesso ssh a ele.

Como pode determinar se a causa se deve à seguinte:

1.power failure.(Will there be any special non maskable interrupt logged some where)

2.Intentional hard reset.(will it be possible to differentiate between power failure n reset also what will be Signal to look for?).

3.manual reboot command(How to differentiate this from hard reset,will inode reveal anythng related to this like "**Cleaning Orphaned node**"  any special signals?)

4.Low disk space.(there is no message in /log/messages 30 minutes before restart,something stopped daemon from writing to log, disk space was ok ).  

5.Overloaded CPU (Not configured to run any cronjob for saving sar o/p,Currently load average is normal Will there be any special signal to look for when CPU is loaded.)

6.Low RAM(currently there is more than 24 GB free space

Estou interessado em saber a diferença entre intencional (hard reset / comando emitido) e reinicialização de falha de energia.

    
por kevin 01.02.2013 / 06:28

2 respostas

2

Para o 3, você verá mensagens de log sobre processos sendo encerrados antes da reinicialização. Você não verá aqueles com 1 e 2. Além disso, com desligamentos não-graciosos, você poderá ver mensagens relacionadas à verificação do sistema de arquivos na inicialização. No entanto, lembre-se de que a presença deles não indica necessariamente um desligamento forçado, já que alguns sistemas de arquivos executam verificações periódicas em si mesmos a cada N dias ou a cada X montagens.

Para 4, 5 e 6, isso normalmente não causa reinicializações, e são todas as coisas que seu monitoramento deve capturar e alertar.

Para expandir em 6, sob extrema carga de RAM, o kernel invocará seu killer de falta de memória, que elimina os processos que demandam memória, a fim de preservar a estabilidade geral do sistema. Quando isso acontece, ele será registrado.

    
por 01.02.2013 / 06:48
2

Para a maioria das falhas de hardware que você pode ver em System Event Log records, ele pode revelar coisas como:

  1. sobreaquecimento da CPU
  2. Erros de memória ECC
  3. Falhas da fonte de alimentação
  4. reinicializações IPMI

e muito mais.

Você pode acessar o SEL (se estiver disponível em seu hardware) usando os comandos ipmitool ou ipmiutil , consulte: ipmiutil mostre os registros do log de eventos do sistema do firmware

    
por 01.02.2013 / 10:06