Possíveis efeitos do slurmstepd: erro: Excedeu o limite de memória do passo em algum momento?

3

Eu tenho uma pergunta para aqueles que estão familiarizados com o agendador Slurm. Às vezes eu recebo a seguinte mensagem de erro slurmstepd: error: Excedeu o limite de memória passo em algum momento.

Eu sei que significa que a memória alocada para o meu processo não foi suficiente. No entanto, o processo não é morto pelo agendador e muitas vezes parece inócuo: O programa é executado até a conclusão e os arquivos de saída parecem em boa forma.

Devo sempre assumir que a saída está com defeito e executar novamente os programas se obtiver essa mensagem de erro? Por que às vezes a memória alocada pode ser excedida, mas o programa não é eliminado?

    
por j91 26.04.2017 / 14:58

1 resposta

0

A menos que você tenha recebido uma mensagem de que o trabalho foi morto pelo SLURM e sacct mostre um status completo, você deve ser razoavelmente capaz de assumir que o trabalho foi concluído.

    
por 02.08.2017 / 20:57

Tags