Difícil dizer o que está causando o salto ou o aumento gradual com as informações fornecidas.
Os instantâneos fornecidos sugerem que os principais usuários de memória estão realmente se comportando bem - o espaço ocupado pela memória é menor durante a trituração da memória, logo antes do ataque da OOM. O que sugere que alguns outros processos realmente contribuem para a crise (talvez relacionado a alguma atividade do usuário, talvez algumas coisas do cron, talvez alguma condição transitória de repente durando muito mais do que o habitual?).
Infelizmente, o assassino da OOM não é inteligente o suficiente e mata cegamente o processo de usuário de memória superior - IMHO uma decisão pouco inspirada em servidores com funções dedicadas.Um monitoramento muito mais detalhado seria necessário para descobrir os processos que causam a falta de memória. Eu começaria com execuções periódicas de top despejando informações sobre all os processos em um arquivo que pode ser examinado posteriormente. Por que todos os processos? Porque um pico súbito ou um aumento gradual no número de processos (mesmo com uma pequena pegada de memória cada um) também pode explicar potencialmente alterações de uso de memória como as que você relatou.