Eu tive o mesmo problema por dias com o SLURM executando apenas um trabalho por nó, não importando o que eu colocasse nos arquivos de lote. A seguinte combinação de configurações finalmente me permitiu obter vários lotes em execução em um único nó.
Antes de começar, certifique-se de que não haja trabalhos em execução e elimine seus nós. Veja esta resposta para mais sobre o serviço vs systemctl para fazê-lo na maioria dos sistemas Linux. / p>
sudo service slurmd stop
sudo service slurmctld stop
Em /etc/slurm-llnl/slurm.conf (a localização pode ser diferente)
...
SelectType=select/cons_res
SelectTypeParameters=CR_Core
...
NodeName=a NodeAddr=192.168.1.2 CPUs=16 Sockets=2 CoresPerSocket=4 ThreadsPerCore=2 RealMemory=12005 State=UNKNOWN
Isso é obviamente específico para um nó em particular, e o seu será diferente. Mas, se o nó não estiver configurado corretamente, o SLURM poderá retornar erros sobre a indisponibilidade de recursos. Para obter informações confiáveis sobre seu nó, tente o seguinte em cada nó:
sudo slurmd -C
Em seguida, use sua saída para definir cada nó no arquivo slurm.conf do controlador. Quando as coisas estiverem configuradas, inicie o backup do SLURM novamente e envie alguns lotes de teste para ver se eles se espalham pelos nós corretamente.
sudo service slurmd start
sudo service slurmctld start