Eu tenho um cluster LSF e experimento os seguintes problemas.
Depois de algum tempo, processos aleatórios do sistema operacional começam a morrer (eles se tornam zumbis ou extintos), e os nós LSF não relatam nenhum problema ao mestre NSF. Acredito que isso seja causado pelas tarefas do LSF que esgotam a memória (128 GB) nos nós.
As tarefas são executadas como um usuário LSF não raiz.
Question. How can I make the LSF tasks die instead of OS processes?
Quaisquer outras sugestões e ideias serão apreciadas.
(Eu reconheço que a memória é difícil.)