mpd daemon terminando prematuramente os trabalhos

2

Eu estou um pouco fora da minha profundidade aqui, então fique comigo. Eu estou tentando configurar o mpirun e o mpiexec para executar o software chamado Materials Studio em um cluster de 1 nó, 2 processadores e 12 núcleos. O esquema de submissão é PBS. Eu tinha tudo configurado corretamente (com alguma ajuda) e onde eu poderia enviar trabalhos e eles funcionariam bem, mas depois de alguns dias eu encontrei problemas onde eu iria receber esse tipo de erro:

mpiexec_server.org: não pode se conectar ao mpd local (/tmp/mpd2.console_user); possíveis causas: 1. nenhum mpd está rodando neste host 2. um mpd está rodando mas foi iniciado sem um "console" (opção -n)

Parecia que o daemon do mpd estava de alguma forma configurado, mas acabou encerrado. Tive sorte em adicionar isso (parte em negrito) ao meu script de envio:

export PATH=/data1/opt/MD/Linux-x86_64/IntelMPI/bin:$PATH

export LD_LIBRARY_PATH=/data1/opt/MD/Linux-x86_64/IntelMPI/lib:/data1/opt/MD/Linux-x86_64/IntelMPI/bin:/data1/opt/MD/Linux-x86_64/IntelMKL/lib

**mpdboot -n 1 -f ~/mpd.hosts**

nohup mpd &

/data1/opt/MD/Linux-x86_64/IntelMPI/bin/mpiexec -n 6 /data1/opt/MD/2.0/TaskServer/Tools/vasp5.3.3/Linux-x86_64/vasp_parallel

O trabalho agora é enviado e executado corretamente, mas expira depois de 30 minutos ou mais. Eu tentei adicionar '-r ssh' sem aspas ao final da linha mpdboot, mas não tenho certeza se essa é a estratégia correta a ser tomada. Além disso, estou um pouco confuso sobre o motivo pelo qual preciso executar esse daemon nesse script e por que preciso chamar um arquivo de hosts quando eu o executo - achei que o PBS cria isso quando o trabalho é ativado. Alguém poderia me dar algum conselho sobre onde ir em seguida? Basicamente, como posso evitar que um trabalho que está sendo executado pare de fazer algo com o daemon mpi.

EDIT: Alguém poderia lançar alguma luz sobre o que está envolvido com a execução desse mpiexec que eu tenho na última linha? Se eu vincular adequadamente a pasta onde está, preciso executar um comando de inicialização? Devo admitir que estou confuso porque preciso rodar o mpdboot / mpd quando então todo ponto do mpiexec é eliminar a necessidade do mpd (pelo menos de acordo com o site mpiexec).

    
por sjensen 08.06.2013 / 15:37

1 resposta

0

Estou executando uma simulação de MD. Mas, uma vez que eu queira executar a simulação no DL-POLY, a simulação não é iniciada. Eu usei estes comandos:

$ ps aux | grep mpd 

$ nohup mpd > mpd.out 2> mpd.err < /dev/null/ &

$ mpiexec -n 4 DLPOLY.X >> job.out 2> job.err < /dev/null &

$ top

Para que quando eu usar o último comando para ver o processo, eu veria que o DL_POLY não apareceu. Enquanto isso, usando o comando ll , vejo que mpd.out tem um valor zero. Não sei por quê?

    
por 29.05.2014 / 13:20