Jobs não sendo executados no Torque, a instalação do Maui não ajudou

2

Então, acabei de instalar o Torque em um pequeno cluster que estamos configurando e tudo parecia ter sido muito tranquilo. Eu tenho pbs_mon em execução nos nós de cálculo e pbs_server em execução no nó principal, e pbsnodes -a do nó principal mostra todos os nós no estado "livre".

No entanto, quando eu envio um trabalho trivial - mesmo o echo 'sleep 30' job - usando o comando qsub , as coisas ficam na fila e nunca são executadas. Eu tenho quatro nós de computação e estou solicitando 4 nós (memória não especificada / tempo / ppn).

Eu pensei que talvez eu precisasse instalar o Maui para fazer com que o job scheduling funcionasse bem, mas em retrospectiva, o Torque deveria ser capaz de agendar e executar trabalhos por si só, não deveria? Em qualquer caso, eu instalei Maui (com sucesso?) No nó principal (fazer um showq mostra meus trabalhos enviados como BLOCKED) ... Eu suponho que ele está trabalhando no nó principal, pois senão eu não seria capaz de ver meu trabalhos submetidos por qsub, certo? Preciso instalar o Maui em cada um dos nós de computação para que ele funcione? E eu preciso começar a falar sobre isso também?

Eu realmente só quero que isso funcione para coisas simples ... vamos ver o resto mais tarde. Eu sou muito novo para isso e aprecio qualquer ajuda que é oferecida. Eu tentei fazer o que é mencionado nos guias de instalação e, como eu disse, tudo parecia funcionar, mas agora não está se comportando como eu esperava.

Aqui está a saída da execução de checkjob em um trabalho na fila ...

  job is deferred.  Reason:  RMFailure  (cannot start job - RM failure, rc: 15043, 
  msg: 'Execution server rejected request MSG=cannot send job to mom, state=PRERUN')
  Holds:    Defer  (hold reason:  RMFailure)
  PE:  1.00  StartPriority:  1
  cannot select job 8 for partition DEFAULT (job hold active)

Acho que pbs_mom está sendo executado em todos os nós de computação:

  [root@host1 ~]# service pbs_mom status
  pbs_mom (pid 27824) is running...

  [root@host2 ~]# service pbs_mom status
  pbs_mom (pid 20164) is running...

  [root@host3 ~]# service pbs_mom status
  pbs_mom (pid 23981) is running...

  [root@host4 ~]# service pbs_mom status
  pbs_mom (pid 23996) is running...

Eu também acredito que pbs_server está rodando no nó principal ... meu problema poderia ser que eu precise alterar o iptables para ter certeza de que as portas necessárias não estão sendo bloqueadas? Novamente, todos os nós estão aparecendo como livres depois de um pbsnodes -a ...

Apenas no caso de isso conter informações úteis ...

  [root@headnode maui-3.3.1]# pbsnodes -a
  host1
       state = free
       np = 4
       properties = dual470
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=164038242,gres=,
  loadave=0.00,ncpus=4,physmem=8060460kb,availmem=17684340kb,totmem=18349604kb,
  idletime=241170,nusers=2,nsessions=9,sessions=3444 3328 3564 3574 3604 3620 
  3630 3684 6843,uname=Linux hawc1 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host2
       state = free
       np = 4
       properties = dual480
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=106187454,gres=,
  loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13819772kb,
  totmem=14219264kb,idletime=241201,nusers=1,nsessions=6,sessions=3446 
  3450 3452 3477 3479 3504,uname=Linux hawc2 2.6.32-71.29.1.el6.x86_64 
  #1 SMP Mon Jun 27 19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host3
       state = free
       np = 4
       properties = dual480
       ntype = cluster
       status = 
  rectime=1317050602,varattr=,jobs=,state=free,netload=148456196,gres=,
  loadave=0.00,ncpus=8,physmem=8058888kb,availmem=13722692kb,totmem=14219264kb,
  idletime=241161,nusers=2,nsessions=8,sessions=3482 3362 3584 3594 3624 3640 
  3650 3706,uname=Linux hawc3 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

  host4
       state = free
       np = 4
       properties = 480C2050
       ntype = cluster
       status = 
  rectime=1317050595,varattr=,jobs=,state=free,netload=154812523,gres=,
  loadave=0.01,ncpus=8,physmem=8058888kb,availmem=13715256kb,totmem=14219264kb,
  idletime=241142,nusers=2,nsessions=9,sessions=3504 3386 3590 3600 3630 3650 
  3655 3712 3829,uname=Linux hawc4 2.6.32-71.29.1.el6.x86_64 #1 SMP Mon Jun 27 
  19:49:27 BST 2011 x86_64,opsys=linux
       mom_service_port = 15002
       mom_manager_port = 15003
       gpus = 2

RESOLVIDO:

Então acontece que o iptables estava brincando comigo. Eu desabilitei o iptables nos nós de computação e adicionei entradas corretas no nó principal, e agora parece funcionar OK ... Eu posso fazer o eco do "sleep 30" e vê-lo funcionar. Estou tendo um novo problema, mas farei uma nova pergunta agora ... esperamos que esta seja mais simples!

    
por Patrick87 26.09.2011 / 18:16

0 respostas