Como solucionar um encerramento inesperado do Linux

1

Eu tenho dois servidores RHEL6.3 que apenas desligam no mesmo horário exato (25 segundos de intervalo) sem nenhum motivo aparente. Eles estão com energia condicionada, junto com vários outros servidores que não desligaram, então não pode ser a energia. A sala está devidamente refrigerada e os dois desligando ao mesmo tempo devido à temperatura parece improvável.

No momento do desligamento, os dois servidores têm o seguinte em seu / var / log / secure. Eu não sei o que isso significa, mas achei peculiar.

Apr 10:42:52 localhost polkitd(authority=local): Unregistered Authentication Agent for session /org/freedesktop/ConsoleKit/Session1 (system bus name :1.25, object path /org/gnome/PolicyKit1/AuthenticationAgent, locale en_US.UTF-8) (disconnected from bus)

Em / var / log / messages, ambos os sistemas têm o que parece ter recebido um pedido de desligamento normal

Apr 10 10:42:52 localhost init: tty (/dev/tty2) main process (6183) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty3) main process (6186) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty4) main process (6188) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty5) main process (6190) killed by TERM signal
Apr 10 10:42:52 localhost init: tty (/dev/tty6) main process (6192) killed by TERM signal

Então, verifiquei a última vez para ver se alguém fez login para fazer isso e ambos têm essa entrada sem fazer login antes por alguns dias.

reboot     system boot   2.6.32-279.el6.x Thu Apr 10 10:42 - 10:42  (00:00)

Então, se ninguém logou para desligá-lo e eu tive dois caras que estavam lá presenciar o desligamento dos servidores e eles confirmaram que ninguém tocou em nenhum dos servidores, o que mais poderia causar esse desligamento? Onde mais devo procurar pistas?

    
por majikman 10.04.2014 / 20:46

1 resposta

1

Assumindo que isso é um kernel oops (kernel panic), você precisa capturar a saída do console do servidor para entender o que exatamente aconteceu. Você pode fazer isso usando:

  • Acesso físico ao console, normalmente você precisaria tirar uma foto da tela para capturar o pânico (a maneira menos confiável de capturar)
  • IP KVM remoto (faça uma captura de tela)
  • Console serial (saída do console de log via cabo serial do computador com problema para outro)
  • Console de rede (saída do console de log para outro servidor em sua rede) link

Coisas para verificar em todos os servidores para ter sucesso:

  • Verifique a opção kernel.panic em /etc/sysrq.conf, que controla o tempo limite após o qual o Linux será reinicializado após o kernel panic
  • Verifique o nível de log do kernel via kernel.printk em /etc/sysrq.conf, recomendado com mais depuração: echo 'kernel.printk = 8 4 1 7' >> /etc/sysctl.conf
por 10.04.2014 / 21:19