Coloque em uma solução abrangente de monitoramento remoto com algo parecido com o Zabbix. Monitorar aspectos do uso de recursos do sistema, bem como quaisquer estatísticas de hardware disponíveis para o sistema operacional (por exemplo, velocidades de ventoinhas, temperaturas e afins). Dessa forma, quando seu sistema cair em seguida, você terá vários pontos de dados para ver qual é o problema.
Com essa abordagem, você pode descobrir, por exemplo, que há um processo que fica fora de controle com a alocação de RAM, empurra o sistema para swap e faz com que o assassino de memória comece a esculpir seus processos em execução, deixando a máquina sem resposta. Sem monitoramento, você não poderia saber disso.