Estou executando uma caixa LTS do Ubuntu 16.04.3 da Linode, que é muito subutilizada, mas o monitor de tempo de atividade me disse que meus sites ficaram inativos por quase uma hora antes de voltarem. Eu verifiquei e encontrei o servidor reiniciado e foi quando o site se recuperou. Teve um email do Linode que Host initiated restart
. A configuração de alertas dentro do Linode de alto limite de utilização também não foi acionada.
Estou tentando descobrir o que aconteceu. Eu vi um problema em outra caixa de execução do Ubuntu com o Linode, na qual o suporte do Linode me disse que algo causou o travamento do Linode e Lassie (seu watchdog) reiniciou, o que é exatamente o que parece ter acontecido aqui.
Eu verifiquei os dois /var/log/auth.log
& /var/log/syslog
, mas parece que faltam entradas de log entre 18:03
e 18:57
, que é a janela do tempo de inatividade. Nenhuma mensagem se destaca como tal. Não há /var/log/messages
log no meu servidor.
Conteúdo de /var/log/syslog
:
Feb 23 18:03:04 localhost alertyo-engine[6279]: Un-Setting flag
Feb 23 18:03:04 localhost alertyo-engine[6279]: Alloc = 1 MiB#011TotalAlloc = 2470 MiB#011HeapAlloc = 1 MiB#011Sys = 10 MiB#011NumGC = 10856
Feb 23 18:57:14 localhost rsyslogd: [origin software="rsyslogd" swVersion="8.16.0" x-pid="3304" x-info="http://www.rsyslog.com"] start
Feb 23 18:57:14 localhost rsyslogd-2222: command 'KLogPermitNonKernelFacility' is currently not permitted - did you already set it via a RainerScript command (v6+ config)? [v8.16.0 try http://www.rsyslog.com/e/2222 ]
Feb 23 18:57:14 localhost rsyslogd: rsyslogd's groupid changed to 108
Feb 23 18:57:14 localhost rsyslogd: rsyslogd's userid changed to 104
Feb 23 18:57:14 localhost systemd[1]: Mounted FUSE Control File System.
Conteúdo de /var/log/auth.log
:
Feb 23 18:03:01 localhost CRON[29814]: pam_unix(cron:session): session closed for user root
Feb 23 18:03:01 localhost CRON[29813]: pam_unix(cron:session): session closed for user ashfame
Feb 23 18:57:14 localhost CRON[3301]: pam_unix(cron:session): session opened for user ashfame by (uid=0)
Feb 23 18:57:15 localhost systemd-logind[3312]: Watching system buttons on /dev/input/event0 (Power Button)
Feb 23 18:57:15 localhost systemd-logind[3312]: New seat seat0.
Feb 23 18:57:15 localhost sshd[3449]: Server listening on 0.0.0.0 port 22.
Feb 23 18:57:15 localhost sshd[3449]: Server listening on :: port 22.
Feb 23 18:57:16 localhost CRON[3301]: pam_unix(cron:session): session closed for user ashfame
Feb 23 18:58:01 localhost CRON[3681]: pam_unix(cron:session): session opened for user root by (uid=0)
Feb 23 18:58:01 localhost CRON[3680]: pam_unix(cron:session): session opened for user ashfame by (uid=0)
Feb 23 18:58:01 localhost CRON[3681]: pam_unix(cron:session): session closed for user root
Feb 23 18:59:01 localhost CRON[3787]: pam_unix(cron:session): session opened for user root by (uid=0)
Feb 23 18:59:01 localhost CRON[3786]: pam_unix(cron:session): session opened for user ashfame by (uid=0)
Feb 23 18:59:01 localhost CRON[3787]: pam_unix(cron:session): session closed for user root
Feb 23 18:59:01 localhost CRON[3786]: pam_unix(cron:session): session closed for user ashfame
O que mais posso verificar? Se este era um problema recorrente, eu provavelmente poderia configurar mais do material de log para descobrir o que está errado, mas como da última vez (que estava em outra caixa), estou com medo de que isso seja uma ocorrência em vários meses. Como faço para descobrir o que aconteceu em vez de me preparar para quando isso acontecer novamente?