A menos que você tenha recebido uma mensagem de que o trabalho foi morto pelo SLURM e sacct mostre um status completo, você deve ser razoavelmente capaz de assumir que o trabalho foi concluído.
Eu tenho uma pergunta para aqueles que estão familiarizados com o agendador Slurm. Às vezes eu recebo a seguinte mensagem de erro slurmstepd: error: Excedeu o limite de memória passo em algum momento.
Eu sei que significa que a memória alocada para o meu processo não foi suficiente. No entanto, o processo não é morto pelo agendador e muitas vezes parece inócuo: O programa é executado até a conclusão e os arquivos de saída parecem em boa forma.
Devo sempre assumir que a saída está com defeito e executar novamente os programas se obtiver essa mensagem de erro? Por que às vezes a memória alocada pode ser excedida, mas o programa não é eliminado?
A menos que você tenha recebido uma mensagem de que o trabalho foi morto pelo SLURM e sacct mostre um status completo, você deve ser razoavelmente capaz de assumir que o trabalho foi concluído.