Eu tenho 6 computadores (4 núcleos cada e idênticos em hardwares) com IPs estáticos e preciso rodar o software de química computacional NAMD em paralelo usando o OpenMPI. Então eu
No entanto, funciona em 3 computadores e, para outros, dá
mpiuser@master ~/Desktop/apoa1-16 $ mpiexec -np 16 --hostfile mpi-hostfile namd2 apoa1.namd > apoa1.log
ssh: Could not resolve hostname slave32: Temporary failure in name resolution
ssh: Could not resolve hostname slave27: Temporary failure in name resolution
[master:04223] 1 more process has sent help message help-errmgr-base.txt / failed-daemon-launch
[master:04223] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages
meu / etc / hosts do computador mestre se parece com isso
127.0.0.1 localhost
#127.0.1.1 master
172.18.112.78 master
#Cluster Host Names
172.18.112.75 slave25
172.18.112.76 slave26
172.18.112.77 slave27
172.18.112.82 slave32
172.18.112.81 slave31
ssh slavexx funciona bem
meu mpi-hostfile se parece com isso
localhost slots=4
slave25 slots=4
slave26 slots=4
slave27 slots=4
slave31 slots=4
slave32 slots=4
slave25 e slave26 funcionam bem (max 12 processadores, mpiexec -np 16), mas mais que isso dão ssh: Could not resolve hostname slavexx: Temporary failure in name resolution
erro. é tão esquisito desde que eu posso pingar, ssh todos os 5 computadores sem nenhum problema.
alguém tem uma ideia para resolver isso?
e uma outra coisa, essas máquinas são clonadas. então mudei o nome do host do computador recentemente e reinstalei o SSH e o OpenMPI.
UPDATE: agora eu descobri que apenas os três primeiros no mpi-hostfile
usado para o MPI são executados. para os outros acima do erro aparece!
Tags ssh linux parallel-processing