Alocação aleatória de nó de slurm

2

Alguém teve sorte aleatorizando alocações de nós do Slurm? Nós temos um pequeno grupo de 12 nós que podem ser usados em qualquer lugar, de 1-8 pessoas por vez, com trabalhos de vários tamanhos / comprimentos. Ao testar nossa nova configuração do Slurm, as tarefas sempre vão para o primeiro nó na partição, se não houver outros usuários para tarefas interativas e em lote. Existe uma maneira de randomizar esse agendamento?

Parece que, dependendo da linha do tempo de um usuário, eles poderiam consistentemente obter os mesmos nós e isso poderia disfarçar problemas em hardware / configuração que poderiam estar visíveis. Nossos nós são sempre exclusivos, então estamos apenas olhando para randomizar o agendamento no nível do nó ...

    
por tnallen 31.10.2017 / 00:14

3 respostas

1

Veja a configuração Peso no slurm.conf

The priority of the node for scheduling purposes. All things being equal, jobs will be allocated the nodes with the lowest weight which satisfies their requirements. For example, a heterogeneous collection of nodes might be placed into a single partition for greater system utilization, responsiveness and capability. It would be preferable to allocate smaller memory nodes rather than larger memory nodes if either will satisfy a job's requirements. The units of weight are arbitrary, but larger weights should be assigned to nodes with more processors, memory, disk space, higher processor speed, etc. Note that if a job allocation request can not be satisfied using the nodes with the lowest weight, the set of nodes with the next lowest weight is added to the set of nodes under consideration for use (repeat as needed for higher weight values). If you absolutely want to minimize the number of higher weight nodes allocated to a job (at a cost of higher scheduling overhead), give each node a distinct Weight value and they will be added to the pool of nodes being considered for scheduling individually. The default value is 1.

    
por 31.10.2017 / 09:19
0

Não acredito que seja possível randomizar a alocação de nós sem alterar o código ou fornecer seu próprio plugin. Há muitas maneiras de afetar quais nós serão escolhidos por um determinado trabalho, mas nenhum deles é aleatório. Como o @Tux_DEV_NULL observou, você pode usar peso para preferir um subconjunto de nós, mas, a menos que você esteja alterando pesos aleatoriamente, ainda assim você acabará no mesmo nó novamente se todo o seu cluster estiver ocioso. Acredito que o tempo de atividade de nós seja usado como o desempatador final.

Se você estiver preocupado em perder nós configurados incorretamente ou quebrados, use um script de verificação de integridade do nó usando o parâmetro HealthCheckProgram no slurm.conf. Um bom para usar pode ser encontrado aqui: link

    
por 31.07.2018 / 01:11
0

Você pode adicionar "LLN = YES" à partição.

LLN Schedule resources to jobs on the least loaded nodes (based upon the number of idle CPUs).

    
por 03.08.2018 / 07:12