O SLURM, por padrão, não permite o compartilhamento de recursos, portanto, quando um trabalho é executado em 1 nó, o restante dos trabalhos espera que ele seja concluído antes de executar qualquer tarefa adicional no mesmo nó.
O SLURM precisa ser configurado para compartilhamento de recursos, isso deve ser bastante simples e bem documentado.
Um exemplo do que adicionar ao seu arquivo slurm.conf (normalmente localizado em / etc / slurm) seria:
SelectType=select/cons_res
SelectTypeParameters=
DefMemPerCPU=
Isso permitiria o compartilhamento dos recursos de um nó usando o con_res
plugin.
O plug-in select/con_res
permite uma ampla variedade de parâmetros (SelectTypeParameters). Os mais proeminentes estão listados abaixo (para uma lista completa de parâmetros, consulte a página de manual do slurm.conf):
CR_CPU : as CPUs são o recurso consumível.
CR_CPU_Memory : adiciona memória como consumível a CR_CPU.
CR_Core Cores : Núcleos são o recurso consumível.
CR_Core_Memory : adiciona memória como consumível a CR_CPU_Memory.
Depois que isso for feito e você tiver selecionado o tipo de recurso que deseja usar como consumível no SLURM, tudo o que você precisa fazer é adicionar a opção shared=yes
à sua fila padrão e emitir o comando scontrol reconfigure
no nó que está sendo usado como controlador.