Estou trabalhando em um cluster remoto ( westgrid > bugaboo ) no qual envio processos por meio de um .pbs
file. Meu .pbs
se parece com isso
#!/bin/bash
#PBS -l procs=1
#PBS -l walltime=100:00:00
#PBS -N SimulationName
#PBS -m ea
#PBS -M [email protected]
#PBS -l pmem=3000mb
#PBS -t 1-100
echo "Starting run at: 'date'"
R --vanilla --args ${PBS_ARRAYID} < /Path/To/code.R
echo "Job finished with exit code $? at: 'date'"
, onde PBS_ARRAYID
assumirá os valores de 1 a 100 para cada trabalho específico. /Path/To/code.R
é um wrapper R para algum arquivo binário escrito em C
. Quando eu enviar o trabalho
$ qsub mypbs.pbs
tudo parece funcionar bem. Simulações funcionam como esperado e eu tenho as saídas. A questão é que, em algum momento, enquanto as simulações estão em execução, muitas vezes vejo trabalhos estranhos nos "trabalhos bloqueados".
$ showq -u myName
active jobs------------------------
JOBID USERNAME STATE PROCS REMAINING STARTTIME
0 active jobs 0 of 4516 processors in use by local jobs (0.00%)
428 of 436 nodes active (98.17%)
eligible jobs----------------------
JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME
0 eligible jobs
blocked jobs-----------------------
JOBID USERNAME STATE PROCS WCLIMIT QUEUETIME
30004048[] matthey NotQueued 1 2:02:00:00 Wed Mar 23 12:56:27
30156104[] matthey NotQueued 1 2:02:00:00 Mon Mar 28 01:14:16
2 blocked jobs
Total jobs: 2
O ID do trabalho é de fato o mesmo daqueles que executam (ou executaram antes), mas esses dois trabalhos bloqueados não possuem PBS_ARRAYID
entre os colchetes. Esses trabalhos ficam lá por muito tempo e eu não consigo deletá-los
$ qdel 30004048[]
qdel: nonexistent job id: 30004048[]
Além disso, não posso enviar nenhum trabalho novo (que é o problema principal) quando recebo a mensagem
$ qsub mypbs.pbs
qsub: submit error (Maximum number of jobs already in queue MSG=Job 30893576.b0 violates the global server limit of 500 jobs queued per user)
mesmo que eu NÃO viole esse limite de servidor. Eventualmente, esses trabalhos "NotQueued" acabam desaparecendo, mas somente depois de um tempo relativamente longo.
Esse problema aconteceu comigo várias vezes no passado e entre todos os usuários desse cluster, parece que eu sou o único que está enfrentando esse problema. Ao entrar em contato com o suporte, eles geralmente acabam de alguma forma excluindo os dois trabalhos, mas até agora não recebi nenhuma solução de longo prazo para esse problema.
Tags bash process job-control cluster linux