comece com a coleta de estatísticas para ver se há alguma correlação entre interrupções e atividade do sistema. você pode usar por exemplo:
-
sar - para estatísticas baseadas em texto puro
-
munin - para obter gráficos de tempo simples
-
cactos - como munin + muito mais, pode ser demais no seu caso
sem tais estatísticas você é muito cego, eles também são úteis quando você quer fazer algum planejamento de capacidade ou apenas quer ver se existem padrões / anomalias perceptíveis no comportamento do seu sistema.
comece com o monitoramento [você terá a maior parte da caixa com Munin]:
- média de carregamento
- cpu usage / io espera
- troca de atividade
- número de solicitações http veiculadas
- tráfego de rede
- espaço livre em disco em cada partição
- ping resposta ao gateway padrão / algum ponto de referência na internet
- número de [minhas] consultas SQL
minha melhor aposta é que a sua máquina está trocando a morte / ficando presa com o acesso ao disco lento, mas eu posso estar muito errado.
coisas como travamentos completos do sistema provavelmente não deixaram muitos rastros em seus logs, mas em outras situações - é sempre bom verificar o conteúdo do syslog ou logs de aplicativos específicos - talvez você tenha ficado sem espaço em algum lugar? talvez alguma coisa segfaulted?