Estou tentando encontrar uma causa raiz para o servidor travado.
Descobri que um processo travou com o ID de processo 14900 e o seguinte é a mensagem de login. Nenhum dump principal é salvo, pois não está relacionado a nenhum pacote (ProcessUnpackaged = no).
May 25 15:31:41 myserver abrt[15298]: Saved core dump of pid 14900 (/NFS_share/work_dir/freac/FREAC.Linux-2.6-x86_64-Release) to /var/spool/abrt/ccpp-2016-05-25-15:31:41-14900 (11644928 bytes)
May 25 15:31:52 myserver abrtd: Sending an email...
May 25 15:31:52 myserver abrtd: Email was sent to: root@localhost
May 25 15:31:52 myserver abrtd: Duplicate: UUID
May 25 15:31:52 myserver abrtd: DUP_OF_DIR: /var/spool/abrt/ccpp-2016-05-17-10:25:46-48111
May 25 15:31:52 myserver abrtd: Problem directory is a duplicate of /var/spool/abrt/ccpp-2016-05-17-10:25:46-48111
May 25 15:31:52 myserver abrtd: Deleting problem directory ccpp-2016-05-25-15:31:06-12824 (dup of ccpp-2016-05-17-10:25:46-48111)
May 25 15:31:52 myserver abrtd: Failed to open connection to "system" message bus: Failed to connect to socket /var/run/dbus/system_bus_socket: Connection refused
May 25 15:31:52 myserver abrtd: Directory 'ccpp-2016-05-25-15:31:41-14900' creation detected
May 25 15:31:52 myserver abrtd: Executable '/NFS_share/work_dir/freac/FREAC.Linux-2.6-x86_64-Release' doesn't belong to any package
May 25 15:31:52 myserver abrtd: 'post-create' on '/var/spool/abrt/ccpp-2016-05-25-15:31:41-14900' exited with 1
May 25 15:31:52 myserver abrtd: Corrupted or bad directory /var/spool/abrt/ccpp-2016-05-25-15:31:41-14900, deleting
Existe outro processo 14939, que é possivelmente um processo filho de 14900 interrompido, e isso causou um aumento na carga e, por fim, na suspensão do servidor.
May 25 15:33:44 myserver ntpd[4430]: synchronized to 10.171.8.5, stratum 3
May 25 15:35:10 myserver kernel: INFO: task FREAC.Linux-2.6:14939 blocked for more than 120 seconds.
May 25 15:35:10 myserver kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 25 15:35:10 myserver kernel: FREAC.Linux-2 D 00000000ffffffff 0 14939 14658 0x10000084
May 25 15:35:10 myserver kernel: ffff8835d4ebd988 0000000000000046 ffff8835d4ebd908 ffffffffa0844e00
May 25 15:35:10 myserver kernel: ffff8828a4b61440 ffff881fedd4a540 ffff8835d4000001 ffffffff81129607
May 25 15:35:10 myserver kernel: ffff883f4c39baf8 ffff8835d4ebdfd8 000000000000fb88 ffff883f4c39baf8
May 25 15:35:10 myserver kernel: Call Trace:
Houve um problema com o dbus que não havíamos consertado naquele momento, mas poderia ser o motivo da falha do processo filho 14939. Não sei exatamente qual é o propósito do dbus.
Não consegui obter detalhes sobre o processo, pois o servidor foi interrompido devido ao aumento na carga e tivemos que reiniciá-lo. No entanto, corrigimos o problema do dbus após o reinício.
EDIT1:
Alguns entendimentos recentes após uma breve olhada neste link: link
dbus é necessário para comunicação entre processos (IPC) (significa comunicação com outro processo para enviar mensagens e nada a ver com chamadas pai ou filho).
Existe uma declaração:
The systemwide and per-user daemons are separate. Normal within-session IPC does not involve the systemwide message bus process and vice versa.
Então, o que significa vice-versa - O IPC não com a sessão requer processo dbus (em todo o sistema ou usuário)?
Se isso estiver correto, então a comunicação entre 14939 e 14900 não exige dbus, já que estão com a sessão? Ou pode não ser, pode ser que o init tenha herdado um ou ambos os processos e, portanto, o dbus seja necessário.
Em seguida, outra pergunta me incomoda - na verdade, o problema dbus começou após uma reinicialização recente desse servidor e depois de alguns dias o servidor foi interrompido. Se o dbus for necessário para que todos esses processos sejam executados com êxito, por que não houve processos suspensos nesses poucos dias após o reinício.
Por gentileza, apenas tente responder a pergunta sobre o dbus, se o resto da questão for muito amplo.
Obrigado!
EDIT 2:
E também isso: Por que eu preciso de dbus? esclarece algumas coisas sobre o dbus.