Erro de inicialização do canal Intel MPI Gives 'falhou' (mpirun)

1

Estou tentando configurar um pequeno cluster que consiste em 3 servidores. Seu hardware é idêntico e eles estão rodando o CentOS 7. Estou usando o compilador de cluster da Intel e a implementação do MPI. Tudo está configurado: posso ssh entre todos os nós sem uma senha e compartilhei o diretório / opt com nfs, portanto, which mpicc e which mpirun são bem-sucedidos em todos os nós. mpirun -hosts node1 -n 24 /home/cluster/test é o comando que estou tentando executar (o teste é compilado do test.c do diretório de teste do compilador da Intel e é compartilhado entre todos os nós). Ele funciona bem em qualquer nó único, mas se eu tentar executá-lo em mais de um nó, obtenho:

[cluster@headnode ~]$ mpirun -hosts headnode -n 10 /home/cluster/test
Fatal error in MPI_Init: Other MPI error, error stack:
MPIR_Init_thread(784)...................: 
MPID_Init(1323).........................: channel initialization failed
MPIDI_CH3_Init(141).....................: 
MPID_nem_tcp_post_init(644).............: 
MPID_nem_tcp_connect(1107)..............: 
MPID_nem_tcp_get_addr_port_from_bc(1342): Missing ifname or invalid host/port description in business card

O Google não me deu nenhuma resposta útil. Eu também configuro um cluster básico de máquinas virtuais (CentOS 6.5) e recebo exatamente o mesmo erro (portanto, não é um problema de hardware).

    
por geniass 01.12.2014 / 19:41

2 respostas

1

Verifique também /etc/hosts e / ou dig headnode para certificar-se de que o nome do host possa ser resolvido corretamente no nó onde o trabalho foi lançado, se não puder verificar minha configuração de cluster deficiente antes de começar Intel MPI, duvido que isso funcione com o OpenMPI ou qualquer outra distribuição se o headnode não puder ser resolvido corretamente. Além disso, verificar se a porta está aberta e acessível por trás do firewall e tudo está configurado corretamente no SE Linux / outros recursos de segurança seria um primeiro passo lógico, já que claramente o nó não está acessível.

Se você está tendo esses problemas e usando o Intel MPI, faça primeiro um teste de pingue-pongue com o IMB Benchmarks da Intel MPI e analise esses resultados. Permitirei que você procure a sintaxe para executá-la no site da Intel. Os testes e benchmarks que a Intel já escreveu são melhores do que qualquer coisa que você venha a desenvolver e serão muito mais úteis ao diagnosticar este problema.

    
por 30.05.2017 / 04:06
0

Eu descobri como consertar isso: link

Basicamente, adicione -iface [network interface] aos argumentos mpirun ou adicione export I_MPI_HYDRA_IFACE=[network interface] a .bashrc

    
por 02.12.2014 / 13:36