A pesquisa me levou ao utilitário qmod. Eu fiz um teste simples de
qmod -d QUEUENAME.q@MACHINENAME
e isso parece estar funcionando, embora eu não tenha realmente tentado com trabalhos em execução. A saída qstat é alterada para indicar que o nó está desativado - um sinalizador "d" é exibido.
qmod -e QUEUENAME.q@MACHINENAME
ativará a máquina novamente.
Em nosso cluster, as máquinas são nomeadas como worker - ## - ##, onde os dois números são o número do rack e o número da classificação. Nós só executamos uma fila principal, chamada "all.q". E as máquinas em nosso cluster são listadas com um sufixo ".local" na saída qstat. Então o comando acima acaba sendo
qmod -d [email protected]
para levar a máquina ao rack 9, coloque 9 na rotação de filas.