latência de Mellanox e Infiniband

2

Eu tenho dois hosts com placas Voltaire HCA500Ex-D (MT25408 ConnectX Mellanox) de 10 Gbit conectadas a um switch Cisco SFS7000d IB via cabos CX4 de 3 m.

Estou realmente preocupado com a latência, que é maior do que na conexão ethernet de 1 Gbit usando os mesmos hosts.

[root@localhost ~]# ibping -G 0x0008f104039a5589
Pong from host-a.(none) (Lid 3): time 0.238 ms
Pong from host-a.(none) (Lid 3): time 0.291 ms
Pong from host-a.(none) (Lid 3): time 0.320 ms
Pong from host-a.(none) (Lid 3): time 0.290 ms
Pong from host-a.(none) (Lid 3): time 0.335 ms
Pong from host-a.(none) (Lid 3): time 0.281 ms
Most people are having 0.040ms - 0.050ms results using same IB cards.

O Cisco IB Switch e as placas estão executando o firmware mais recente.

Eu tentei conectar dois hosts back-to-back eliminando o switch, mas a latência ainda é de 0.200ms +

Alguma idéia?

    
por kobazik 09.07.2015 / 21:44

2 respostas

1

O download e a instalação de uma versão recente da OFED (Open Fabrics Enterprise Distribution) darão acesso a uma variedade de ferramentas , incluindo ibdiagnet , bem como várias outras ferramentas de teste e ajuste de desempenho do IB. Além dessas ferramentas, você terá a opção de instalar e configurar o openibd e o OpenSM e o gerenciador de sub-rede de código-fonte aberto.

Com base na documentação, o

Cisco SFS7000d IB switch

você mencionou está executando seu próprio gerenciador de sub-rede IB. Seria benéfico para qualquer um

  1. Desative o gerenciador de sub-rede no comutador e configure o OpenSM em um dos servidores

  2. Verifique se a configuração do gerenciador de sub-rede no comutador é apropriada para sua rede

Além de seguir essas etapas, há vários outros testes que podem medir com eficácia a latência e a largura de banda no infiniband. Usando um teste de benchmark de pingue-pongue (MPI - Message Passing Interface) (OpenMPI ou uma versão proprietária). Aqui está um bom exemplo de configuração e configuração de um teste de pingue-pongue MPI com OpenMPI sobre IB .

    
por 09.07.2015 / 22:15
0

Em algum momento maior que o esperado, a latência depende de um mau comportamento de economia de energia.

Tente desativar quaisquer opções de gerenciamento de energia no BIOS e nos drivers de cartão nos dois hosts e repita o teste de ping com a conexão direta com o servidor.

Isso muda alguma coisa?

    
por 09.07.2015 / 21:56

Tags