Então, de vez em quando (uma vez em um mês ou dois), um dos nossos processos, executando uma parte crítica do código que não queremos tocar, está sendo morto pelo Assassino Sem Memória. Ele diz isso em /var/log/messages
.
Vamos abordar a causa separadamente. Quero monitorar e abordar os efeitos agora mesmo. Eu quero que nós (os sysops) recebam uma notificação sempre que isso acontecer, para que possamos aguardar uma hora ou mais para que o tráfego no cluster diminua um pouco e reinicie a tarefa que foi eliminada.
Como faço para que essa notificação aconteça?
Acho que rodamos o Red Hat Linux em nossas caixas, se for importante.