Eu quero executar os benchmarks do IMB 2017 e do HPCC 1.5.0 em nosso HPC para ter certeza de que tudo está configurado corretamente.
temos 32 nós de computação, cada um com 16 núcleos e 32 GB de memória. cada nó tem um cartão q infinito com uma porta a 40Gb / s.
o sistema operacional usado é o RHEL 6.5 com o IBM Platform HPC 4.2.
Utilizado é o: IntelIB-OFED.RHEL6-x86_64.3.5.2.34
GCC: versão do gcc 4.4.7
Consegui compilar o IMB e o HPCC com a plataforma IBM MPI (PMPI) e o OpenMPI 2.0.1 (OMPI)
IMB
Ao executar o benchmark do IMB com o PMPI e o OMPI nos links Infiniband, eu obtenho no máximo
#---------------------------------------------------
# Benchmarking PingPong
# #processes = 2
#---------------------------------------------------
#bytes #repetitions t[usec] Mbytes/sec
0 1000 1.51 0.00
1 1000 1.51 0.63
... ... ... ...
2097152 20 675.20 2962.09
4194304 10 1320.45 3029.26
3029 MB / s de taxa de transferência, eu esperava mais algo perto de 4000 Mb / s este resultado é correto?
HPCC
Eu usei este site para gerar o perfil de teste.
Ao executar o benchmark, usando menos de 25 nós, o teste vai sem problema, não esperei a conclusão do teste, mas meu problema é quando inicio o benchmark em todos os nós, depois de 2 a 5 segundos recebo esse erro mensagem:
compute014.6359Exhausted 1048576 MQ irecv request descriptors, which usually indicates a user program error or insufficient request descriptors (PSM_MQ_RECVREQS_MAX=1048576)
e o benchmark sai e é eliminado, não é o mesmo nó, cada vez que é outro nó. alguma ideia?
Estes são os comandos usados para iniciar o benchmark hpcc:
OMPI:
mpirun -np 512 --display-allocation --mca btl self,sm --mca mtl psm --hostfile hosts32 /shared/build/hpcc-150-blas-ompi-201/hpcc hpccinf.txt
PMPI:
mpirun -np 512 -PSM -hostfile hosts32 /shared/build/hpcc-150-blas-pmpi/hpcc hpccinf.txt
Se precisar de mais informações, me avise.
Tags mpi