Como posso dizer ao SGE para parar de atribuir trabalho a um nó de computação?

5

Eu quero marcar um nó (ou conjunto de nós) como "offline" no sentido que eu quero que o Sun Grid Engine pare de atribuir um novo trabalho a eles. Isso seria para algum tipo de trabalho de manutenção nos próprios nós. Os nós devem terminar qualquer trabalho que tenham sido atribuídos e, em seguida, entrar em algum tipo de estado ocioso ("offline"). Eu tenho procurado pela documentação do qconf, mas não consigo encontrar este caso de uso em nenhum howto.

    
por Rick Reynolds 15.09.2009 / 23:09

1 resposta

6

A pesquisa me levou ao utilitário qmod. Eu fiz um teste simples de

qmod -d QUEUENAME.q@MACHINENAME

e isso parece estar funcionando, embora eu não tenha realmente tentado com trabalhos em execução. A saída qstat é alterada para indicar que o nó está desativado - um sinalizador "d" é exibido.

qmod -e QUEUENAME.q@MACHINENAME

ativará a máquina novamente.

Em nosso cluster, as máquinas são nomeadas como worker - ## - ##, onde os dois números são o número do rack e o número da classificação. Nós só executamos uma fila principal, chamada "all.q". E as máquinas em nosso cluster são listadas com um sufixo ".local" na saída qstat. Então o comando acima acaba sendo

qmod -d [email protected]

para levar a máquina ao rack 9, coloque 9 na rotação de filas.

    
por 16.09.2009 / 19:34

Tags