Como obter a interface Infiniband SR-IOV virtualizada UP?

8

Passei vários dias nisso agora e consegui fazer com que o SR-IOV trabalhasse com a placa Mellanox Infiniband usando o firmware mais recente.

As funções virtuais aparecem no Dom0 como

06:00.1 Network controller: Mellanox Technologies MT27500 Family [ConnectX-3 Virtual Function] 06:00.2 Network controller: Mellanox Technologies MT27500 Family [ConnectX-3 Virtual Function] 06:00.3 Network controller: Mellanox Technologies MT27500 Family [ConnectX-3 Virtual Function] 06:00.4 Network controller: Mellanox Technologies MT27500 Family [ConnectX-3 Virtual Function]

Eu separei 06: 00.1 do Dom0 e atribui a xen-pciback.

Eu passei isso para um domínio de teste Xen.

lspci dentro do teste que o DomU mostra:

00:01.1 Network controller: Mellanox Technologies MT27500 Family [ConnectX-3 Virtual Function]

Eu tenho os seguintes módulos carregados no DomU

mlx4_ib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib

A saída do dmesg para os drivers do MLx4 mostra:

[   11.956787] mlx4_core: Mellanox ConnectX core driver v1.1 (Dec, 2011)
[   11.956789] mlx4_core: Initializing 0000:00:01.1
[   11.956859] mlx4_core 0000:00:01.1: enabling device (0000 -> 0002)
[   11.957242] mlx4_core 0000:00:01.1: Xen PCI mapped GSI0 to IRQ30
[   11.957581] mlx4_core 0000:00:01.1: Detected virtual function - running in slave mode
[   11.957606] mlx4_core 0000:00:01.1: Sending reset
[   11.957699] mlx4_core 0000:00:01.1: Sending vhcr0
[   11.976090] mlx4_core 0000:00:01.1: HCA minimum page size:512
[   11.976672] mlx4_core 0000:00:01.1: Timestamping is not supported in slave mode.
[   12.068079] <mlx4_ib> mlx4_ib_add: mlx4_ib: Mellanox ConnectX InfiniBand driver v1.0 (April 4, 2008)
[   12.184072] mlx4_core 0000:00:01.1: mlx4_ib: multi-function enabled
[   12.184075] mlx4_core 0000:00:01.1: mlx4_ib: operating in qp1 tunnel mode

Eu até tenho o dispositivo ib0 aparecendo.

ib0       Link encap:UNSPEC  HWaddr 80-00-05-49-FE-80-00-00-00-00-00-00-00-00-00-00  
          inet addr:10.10.10.10  Bcast:10.10.10.255  Mask:255.255.255.0
          UP BROADCAST MULTICAST  MTU:2044  Metric:1
          RX packets:117303 errors:0 dropped:0 overruns:0 frame:0
          TX packets:0 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:256 
          RX bytes:6576132 (6.5 MB)  TX bytes:0 (0.0 B)

Eu posso até pingar localmente 10.10.10.10.

No entanto, esses pings não são enviados para o tecido do infiniband.

Parece que o link está inativo. ibstat mostra:

CA 'mlx4_0'
    CA type: MT4100
    Number of ports: 1
    Firmware version: 2.30.3000
    Hardware version: 0
    Node GUID: 0x001405005ef41f25
    System image GUID: 0x002590ffff175727
    Port 1:
        State: Down
        Physical state: LinkUp
        Rate: 10
        Base lid: 9
        LMC: 0
        SM lid: 1
        Capability mask: 0x02514868
        Port GUID: 0x0000000000000000

Como faço para conseguir? o link domU é UP, mas não o VF?

E a resposta é encontrada aqui: De acordo com este link: link

What do I need for the slave VF's port to become active? I'm running opensm 3.3.13 on a different box, is that new enough? (does SR-IOV require any SM support?)

     

Sim, como Hal notou, no mínimo você precisa de open-time 3.3.14   ( link ), pois é o   1ª versão para suportar o alias-guid et al stuff necessário para o SRIOV, 3.3.15   também está fora agora, então você quer a segunda versão que suporta isso ...   basicamente você precisa de link IB para o PPF e o escravo para obter um alias   guid registrado para isso @ o SM. Nós (equipe de IL) foram off ter / qua a partir de   um feriado, vai tentar obter mais detalhes hoje à noite e se não, por   amanhã, claro.

Eu já atualizei o OpenSM e retornarei o relatório em breve.

EDIT: OK, agora está funcionando. No entanto eu estou recebendo um blowout log para o opensm. O processo do OpenSM está escrevendo centenas de entradas por segundo do formulário:

Sep 30 20:36:26 707784 [7DC1700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 707810 [7DC1700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708096 [8DC3700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708119 [8DC3700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708391 [FF5B0700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708421 [FF5B0700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID
Sep 30 20:36:26 708696 [3DB9700] 0x01 -> validate_requested_mgid: ERR 1B01: Wrong MGID Prefix 0x8000 must be 0xFF
Sep 30 20:36:26 708719 [3DB9700] 0x01 -> mcmr_rcv_create_new_mgrp: ERR 1B22: Invalid requested MGID

E as mensagens de erro acima desapareceram quando eu reiniciei e dei mais memória ao Dom0. Eu atualmente tenho 2GB alocados para ele com autoballooning off. Infelizmente, eles estão de volta sem nenhum motivo óbvio. Então, fiz uma nova pergunta relacionada a aqui

Eu não sei ao certo por que isso funciona no dom0, mas no meu caso eu tenho que ter o OpenSM rodando no Dom0 que tem o VF. Presumo que isso ocorra porque a instância OpenSM em execução no Dom0 sabe sobre as VFs e pode anunciá-las enquanto um gerenciador de sub-rede em outro nó não o faz? esse é o meu palpite. Espero que o outro nó do xen capte o seu VF também. Isso pode acabar se tornando outra questão. Por enquanto está trabalhando com um único nó Xen.

    
por Matt 01.10.2013 / 04:36

1 resposta

1

O OpenSM deve ser instalado e iniciado no host do hypervisor para ativar o estado. Então comece a iniciar o OpenSM com a opção: PORTS="ALL".

    
por 01.10.2013 / 05:06