Eu recomendaria o no topo com o serviço atopsar
. Ele monitora o início e tempo de parada dos processos, além do uso do disco e (por meio de um serviço extra) atividade de rede.
atopsar
monitora seus processos em um intervalo regular (por exemplo, 5 minutos) e registra isso em um arquivo. Você pode abrir esse arquivo depois e percorrer o histórico, mostrando todos os detalhes do processo, como CPU e uso de memória. Talvez isso forneça dicas de porque seu programa falhou.
Verifique também se o /etc/security/limits.conf
está configurado adequadamente para que você receba um dump principal. Isso lhe dá algo para depurar e um timestamp.