Erro SSH: Falha temporária na resolução de nomes na execução do mpi

0

Eu tenho 6 computadores (4 núcleos cada e idênticos em hardwares) com IPs estáticos e preciso rodar o software de química computacional NAMD em paralelo usando o OpenMPI. Então eu

  1. SSH e OpenMPI instalados (no mint 18)
  2. coloque o arquivo executável em / bin em todos os computadores
  3. configurar o SSH sem senha (posso acessar todos os 4 computadores escravos sem senha da máquina mestre)

No entanto, funciona em 3 computadores e, para outros, dá

 mpiuser@master ~/Desktop/apoa1-16 $ mpiexec -np 16 --hostfile mpi-hostfile namd2 apoa1.namd > apoa1.log  
 ssh: Could not resolve hostname slave32: Temporary failure in name resolution
 ssh: Could not resolve hostname slave27: Temporary failure in name resolution  
 [master:04223] 1 more process has sent help message help-errmgr-base.txt / failed-daemon-launch  
 [master:04223] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages  

meu / etc / hosts do computador mestre se parece com isso

127.0.0.1   localhost  
#127.0.1.1  master  
172.18.112.78 master  
#Cluster Host Names  
172.18.112.75 slave25  
172.18.112.76 slave26  
172.18.112.77 slave27  
172.18.112.82 slave32  
172.18.112.81 slave31  

ssh slavexx funciona bem

meu mpi-hostfile se parece com isso

localhost slots=4  
slave25 slots=4  
slave26 slots=4  
slave27 slots=4  
slave31 slots=4  
slave32 slots=4  

slave25 e slave26 funcionam bem (max 12 processadores, mpiexec -np 16), mas mais que isso dão ssh: Could not resolve hostname slavexx: Temporary failure in name resolution erro. é tão esquisito desde que eu posso pingar, ssh todos os 5 computadores sem nenhum problema.

alguém tem uma ideia para resolver isso?

e uma outra coisa, essas máquinas são clonadas. então mudei o nome do host do computador recentemente e reinstalei o SSH e o OpenMPI.

UPDATE: agora eu descobri que apenas os três primeiros no mpi-hostfile usado para o MPI são executados. para os outros acima do erro aparece!

    
por PVGM 16.08.2016 / 08:22

0 respostas