Eles finalmente conseguiram encontrar o problema. E a causa raiz é totalmente estúpida. Se de fato uma visão de monitoramento do cluster es enviou muitas consultas para es. Aproximadamente 6 vezes mais que o próprio aplicativo!
Como você pode ver a cada 2 horas, a memória estava muito alta e o servidor ficou indisponível por vários minutos até limpar a memória (coletor de lixo).
Outros parâmetros também foram otimizados e / ou aumentados.