Então, acabei de instalar o Torque em um pequeno cluster que estamos configurando e tudo parecia ter sido muito tranquilo. Eu tenho pbs_mon
em execução nos nós de cálculo e pbs_server em execução no nó principal, e pbsnodes -a
do nó principal mostra todos os nós no estado "livre".
No entanto, quando eu envio um trabalho trivial - mesmo o echo 'sleep 30'
job - usando o comando qsub
, as coisas ficam na fila e nunca são executadas. Eu tenho quatro nós de computação e estou solicitando 4 nós (memória não especificada / tempo / ppn).
Eu pensei que talvez eu precisasse instalar o Maui para fazer com que o job scheduling funcionasse bem, mas em retrospectiva, o Torque deveria ser capaz de agendar e executar trabalhos por si só, não deveria? Em qualquer caso, eu instalei Maui (com sucesso?) No nó principal (fazer um showq mostra meus trabalhos enviados como BLOCKED) ... Eu suponho que ele está trabalhando no nó principal, pois senão eu não seria capaz de ver meu trabalhos submetidos por qsub, certo? Preciso instalar o Maui em cada um dos nós de computação para que ele funcione? E eu preciso começar a falar sobre isso também?
Eu realmente só quero que isso funcione para coisas simples ... vamos ver o resto mais tarde. Eu sou muito novo para isso e aprecio qualquer ajuda que é oferecida. Eu tentei fazer o que é mencionado nos guias de instalação e, como eu disse, tudo parecia funcionar, mas agora não está se comportando como eu esperava.
Aqui está a saída da execução de checkjob
em um trabalho na fila ...
job is deferred. Reason: RMFailure (cannot start job - RM failure, rc: 15043,
msg: 'Execution server rejected request MSG=cannot send job to mom, state=PRERUN')
Holds: Defer (hold reason: RMFailure)
PE: 1.00 StartPriority: 1
cannot select job 8 for partition DEFAULT (job hold active)
Acho que pbs_mom
está sendo executado em todos os nós de computação:
[root@host1 ~]# service pbs_mom status
pbs_mom (pid 27824) is running...
[root@host2 ~]# service pbs_mom status
pbs_mom (pid 20164) is running...
[root@host3 ~]# service pbs_mom status
pbs_mom (pid 23981) is running...
[root@host4 ~]# service pbs_mom status
pbs_mom (pid 23996) is running...
Eu também acredito que pbs_server
está rodando no nó principal ... meu problema poderia ser que eu precise alterar o iptables para ter certeza de que as portas necessárias não estão sendo bloqueadas? Novamente, todos os nós estão aparecendo como livres depois de um pbsnodes -a
...
Apenas no caso de isso conter informações úteis ...
[root@headnode maui-3.3.1]# pbsnodes -a
host1
state = free
np = 4
properties = dual470
ntype = cluster
status =
rectime=1317050602,varattr=,jobs=,state=free,netload=164038242,gres=,
loadave=0.00,ncpus=4,physmem=8060460kb,availmem=17684340kb,totmem=18349604kb,
idletime=241170,nusers=2,nsessions=9,sessions=3444 3328 3564 3574 3604 3620
3630 3684 6843,uname=Linux hawc1 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27
19:49:27 BST 2011 x86_64,opsys=linux
mom_service_port = 15002
mom_manager_port = 15003
gpus = 2
host2
state = free
np = 4
properties = dual480
ntype = cluster
status =
rectime=1317050602,varattr=,jobs=,state=free,netload=106187454,gres=,
loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13819772kb,
totmem=14219264kb,idletime=241201,nusers=1,nsessions=6,sessions=3446
3450 3452 3477 3479 3504,uname=Linux hawc2 2.6.32-71.29.1.el6.x86_64
#1 SMP Mon Jun 27 19:49:27 BST 2011 x86_64,opsys=linux
mom_service_port = 15002
mom_manager_port = 15003
gpus = 2
host3
state = free
np = 4
properties = dual480
ntype = cluster
status =
rectime=1317050602,varattr=,jobs=,state=free,netload=148456196,gres=,
loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13722692kb,totmem=14219264kb,
idletime=241161,nusers=2,nsessions=8,sessions=3482 3362 3584 3594 3624 3640
3650 3706,uname=Linux hawc3 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27
19:49:27 BST 2011 x86_64,opsys=linux
mom_service_port = 15002
mom_manager_port = 15003
gpus = 2
host4
state = free
np = 4
properties = 480C2050
ntype = cluster
status =
rectime=1317050595,varattr=,jobs=,state=free,netload=154812523,gres=,
loadave=0.01,ncpus=8,physmem=8058888kb,availmem=13715256kb,totmem=14219264kb,
idletime=241142,nusers=2,nsessions=9,sessions=3504 3386 3590 3600 3630 3650
3655 3712 3829,uname=Linux hawc4 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27
19:49:27 BST 2011 x86_64,opsys=linux
mom_service_port = 15002
mom_manager_port = 15003
gpus = 2
RESOLVIDO:
Então acontece que o iptables estava brincando comigo. Eu desabilitei o iptables nos nós de computação e adicionei entradas corretas no nó principal, e agora parece funcionar OK ... Eu posso fazer o eco do "sleep 30" e vê-lo funcionar. Estou tendo um novo problema, mas farei uma nova pergunta agora ... esperamos que esta seja mais simples!