'qsub' deixa “NotQueued” em “jobs bloqueados”

1

Estou trabalhando em um cluster remoto ( westgrid > bugaboo ) no qual envio processos por meio de um .pbs file. Meu .pbs se parece com isso

#!/bin/bash
#PBS -l procs=1
#PBS -l walltime=100:00:00
#PBS -N SimulationName
#PBS -m ea
#PBS -M [email protected]
#PBS -l pmem=3000mb
#PBS -t 1-100

echo "Starting run at: 'date'"

R --vanilla --args ${PBS_ARRAYID} < /Path/To/code.R

echo "Job finished with exit code $? at: 'date'"

, onde PBS_ARRAYID assumirá os valores de 1 a 100 para cada trabalho específico. /Path/To/code.R é um wrapper R para algum arquivo binário escrito em C . Quando eu enviar o trabalho

$ qsub mypbs.pbs

tudo parece funcionar bem. Simulações funcionam como esperado e eu tenho as saídas. A questão é que, em algum momento, enquanto as simulações estão em execução, muitas vezes vejo trabalhos estranhos nos "trabalhos bloqueados".

$ showq -u myName

active jobs------------------------
JOBID              USERNAME      STATE PROCS   REMAINING            STARTTIME


0 active jobs            0 of 4516 processors in use by local jobs (0.00%)
                        428 of 436 nodes active      (98.17%)

eligible jobs----------------------
JOBID              USERNAME      STATE PROCS     WCLIMIT            QUEUETIME


0 eligible jobs   

blocked jobs-----------------------
JOBID              USERNAME      STATE PROCS     WCLIMIT            QUEUETIME

30004048[]          matthey  NotQueued     1  2:02:00:00  Wed Mar 23 12:56:27
30156104[]          matthey  NotQueued     1  2:02:00:00  Mon Mar 28 01:14:16

2 blocked jobs   

Total jobs:  2

O ID do trabalho é de fato o mesmo daqueles que executam (ou executaram antes), mas esses dois trabalhos bloqueados não possuem PBS_ARRAYID entre os colchetes. Esses trabalhos ficam lá por muito tempo e eu não consigo deletá-los

$ qdel 30004048[]

qdel: nonexistent job id: 30004048[]

Além disso, não posso enviar nenhum trabalho novo (que é o problema principal) quando recebo a mensagem

$ qsub mypbs.pbs

qsub: submit error (Maximum number of jobs already in queue MSG=Job 30893576.b0 violates the global server limit of 500 jobs queued per user)

mesmo que eu NÃO viole esse limite de servidor. Eventualmente, esses trabalhos "NotQueued" acabam desaparecendo, mas somente depois de um tempo relativamente longo.

Esse problema aconteceu comigo várias vezes no passado e entre todos os usuários desse cluster, parece que eu sou o único que está enfrentando esse problema. Ao entrar em contato com o suporte, eles geralmente acabam de alguma forma excluindo os dois trabalhos, mas até agora não recebi nenhuma solução de longo prazo para esse problema.

  • Você tem alguma ideia do que está acontecendo?
  • Posso excluir esses dois trabalhos estranhos?
  • Como posso evitar que essas coisas aconteçam novamente?
por Remi.b 02.05.2016 / 21:54

0 respostas