Infiniband sem comutador entre dois servidores no RHEL 6.3

6

Eu tenho 2 servidores rodando o RHEL 6.3 que possuem 2 placas Infiniband de porta

>lspci | grep -i infini
07:00.0 InfiniBand: QLogic Corp. IBA7322 QDR InfiniBand HCA (rev 02)

Estou interessado em conectá-los diretamente uns aos outros, ignorando um switch Infiniband (que eu não tenho). O googling rápido mostrou que, pelo menos em algumas configurações, é possível .

Eu instalei todos os pacotes RedHat Infiniband com yum groupinstall "Infiniband Support" . No entanto, ibv_devinfo mostra que ambas as portas em cada placa estão inativas, o que indica que os cabos não estão conectados. Mas o cabo está conectado, embora os LEDs estejam apagados nas placas (não é um bom sinal). Outra fonte de confusão para mim é que, de acordo com isso , RedHat não vem com OFED pacotes e eu estou um pouco hesitante em instalá-los a partir da fonte, devido à falta de RedHat suporte para eles ... Então, onde eu estou indo com isso? As perguntas que tenho são:

  1. é possível ter uma conexão Infiniband sem switch / direta entre dois servidores da maneira descrita acima?
  2. Se for possível, eu tenho que usar os pacotes OFED ou posso configurar tudo apenas com os pacotes que vêm com o RHEL.
  3. Por que os LEDs estão apagados em meus servidores, mesmo que o cabo esteja conectado?

Quaisquer sugestões / sugestões / sugestões adicionais serão apreciadas.

P.S. Eu segui este guia para obter instruções de instalação . As placas Infiniband são claramente reconhecidas pelo meu SO e o serviço rdma está sendo executado.

Atualização: tenho o opensm instalado. Quando eu executo, diz:

OpenSM 3.3.13
Command Line Arguments:
 Log File: /var/log/opensm.log
-------------------------------------------------
OpenSM 3.3.13

Entering DISCOVERING state

Using default GUID 0x1175000076e4c8
SM port is down

e fica nesse ponto.

Atualização 2: Eu não consegui fazer com que minha configuração funcionasse com os pacotes RedHat. Os pacotes OFED da openfabrics também não funcionaram. Mas eu encontrei drivers oficiais da Intel (que adquiriu a QLogic no início deste ano) que tipo de trabalho. Mais ou menos, porque mesmo quando eu pego os cartões para trabalhar e converso um com o outro, depois de reiniciar eles nunca retornam ao estado PORT_ACTIVE. Bem, provavelmente vou postar outra pergunta sobre isso.

    
por exfizik 22.11.2012 / 22:10

4 respostas

4

Resposta tardia, mas na verdade é um bug conhecido no driver da Intel.

Tente executar isso depois da inicialização:

ibportstate -D 0 1 enable
    
por 08.03.2013 / 15:06
2

Você provavelmente deve tentar procurar drivers fornecidos pelo fabricante da placa - QLogic.

    
por 25.11.2012 / 04:30
1
  1. sim é
  2. Sim, os pacotes do RHEL no 6.3 devem funcionar
  3. Esta é uma boa pergunta

O que a saída de "ibstat" mostra? O estado físico do porto está baixo? A resposta é provavelmente sim". Eu acho que você está tendo problemas com o cabo ou conexão de alguma forma. O estado da porta em ibv_devinfo antes de executar o SM deve ser PORT_INIT. PORT_DOWN está indicando que você não tem link.

    
por 28.11.2012 / 19:03
0

Uma pergunta antiga, mas aqui está minha resposta.

1) Você tem o driver do kernel carregado para o cartão? Deve ser ib_qib

tente:

lsmod | grep ib_qib

Se não estiver carregado, configure-o para carregar na inicialização em / etc / modules ou qualquer que seja o padrão redhat usado para essa classificação de coisa. (é / etc / modules em sistemas baseados em debian).

Além disso, se você quiser executar o IPoIB, precisará carregar esse módulo. Este é o mínimo recomendado para o seu caso.

ib_qib
rdma_ucm
ib_umad
ib_uverbs
ib_ipoib

2) Verifique se o gerenciador de sub-rede está em execução. Você precisa rodar nas duas portas. Portanto, você verá duas cópias do gerenciador de sub-rede em execução na lista de processos, uma para cada porta.

    
por 11.10.2013 / 02:53