O Processo Linux Termina Misteriosamente

2

Eu passei centenas de horas tentando rastrear a causa de um processo que misteriosamente termina em intervalos aleatórios no CentOS 5 de 64 bits, e até agora não estou mais perto de entender o porquê. Examinamos o killer da OOM, examinamos todos os arquivos de log possíveis, executamos postmortems profundos no servidor após o evento, adicionamos código de depuração para acionar um dump principal em qualquer evento de terminação "incomum", etc.

O processo em questão é iniciado normalmente e será executado em um determinado servidor por longos períodos de tempo (dias, semanas, às vezes mais), mas em intervalos aleatórios em servidores aleatórios, sem causa e efeito aparente. vai simplesmente sair. Sem logs, sem arquivo principal, sem nada.

Não sei o que fazer a seguir - na esperança de obter algumas ideias para solucionar problemas que não pensei.

    
por eric 07.01.2015 / 00:56

1 resposta

0

Execute strace ou ltrace no processo. Você pode capturar toda a saída em um arquivo de log ou filtrá-lo para capturar apenas o que precisa. Você pode usar o -e flag para extrair somente o que você está interessado. Strace e ltrace mostrarão quais sinais são interceptados, o que o processo está fazendo e quais chamadas de sistema foram feitas no momento em que o processo termina.

    
por 07.01.2015 / 01:12

Tags