aqui está uma informação mais completa para pessoas que querem resolver isso
Problema enfrentado no RH 6.3 Linux 2.6.32-279.9.1.el6.x86_64 # 1 SMP sex 31 de agosto 09:04:24 BRT 2012 x86_64 x86_64 x86_64 GNU / Linux
**#ibstat**
CA 'mlx4_0'
CA type: MT4099
Number of ports: 2
Firmware version: 2.10.700
Hardware version: 0
Node GUID: 0x0002c90300129780
System image GUID: 0x0002c901013029781
Port 1:
State: Active
Physical state: LinkUp
Rate: 56
Base lid: 1
LMC: 0
SM lid: 1
Capability mask: 0x0251486a
Port GUID: 0x0002c901013029781
Link layer: InfiniBand
1.Crie o arquivo ausente como root:
**vi /etc/udev/rules.d/90-rdma.rules**
------------ cut here ------------
KERNEL=="umad*", SYMLINK+="infiniband/%k"
KERNEL=="issm*", SYMLINK+="infiniband/%k"
KERNEL=="ucm*", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="uverbs*", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="uat", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="ucma", SYMLINK+="infiniband/%k", MODE="0666"
KERNEL=="rdma_cm", SYMLINK+="infiniband/%k", MODE="0666"
------------ cut here ------------
no nó de gerenciamento (ou seja, nó principal, nó de serviço, etc.)
2. Copie esse arquivo via ssh ou qualquer método preferido para qualquer nó de computação no cluster.
**#ssh compute000 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**
**#ssh compute001 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**
**#ssh compute002 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**
**#ssh compute003 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**
**#ssh compute004 cp /home/90-rdma.rules /etc/udev/rules.d/90-rdma.rules**
etc
3.Verifique se o arquivo é criado na pasta de cada nó de cálculo em /etc/udev/rules.d
**#ssh compute000 ls /etc/udev/rules.d | grep rdm
*#90-rdma.rules ***
4. Reinicie todos os nós de computação e nós de gerenciamento.
NOTA:
uma. Após a mudança, o usuário ainda obterá este resultado ao executar o comando
ibv_devices
[root@master ~]# ibv_devices
device node GUID
------ ----------------
mlx4_0 0002c901013029781
mas não se preocupe, apenas execute seu aplicativo mpi preferido e tudo ficará bem.
b. A questão é, independentemente do uso de qualquer fornecedor de HCA, estar diretamente conectada ao sistema operacional.
c. Isto parece ser causado por uma alteração feita no upstream do pacote rdma (não mais regras do udev), os dispositivos infiniband são criados pelo kernel com as permissões erradas. Este problema foi relatado como por usuários do CentOS 6.3 e Scientific Linux 6.3
Espero que ajude os outros