Em redes Infiniband, o que é um MGID e como ele se relaciona ao grupo multicast?

1

Eu tenho este erro no meu log do gerenciador de sub-rede aberta.

Sep 22 01:49:53 router3-1 docker[12431]: Sep 22 01:49:53 089580 [68860700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10c37b1f7ebb0001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:180b:1493:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:49:57 router3-1 docker[12431]: Sep 22 01:49:57 328091 [6585A700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3ac0001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:1868:c9d6:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:04 router3-1 docker[12431]: Sep 22 01:50:04 973005 [60850700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3a60001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:9811:7b48:ff7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:05 router3-1 docker[12431]: Sep 22 01:50:05 291935 [5F04D700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3a40001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:88f3:3bdf:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:09 router3-1 docker[12431]: Sep 22 01:50:09 699903 [6685C700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10c37b1f7e110001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:787e:40cb:fd7f:0, insufficient components specified for implicit create (comp_mask 0x10083)
Sep 22 01:50:22 router3-1 docker[12431]: Sep 22 01:50:22 389193 [63856700] 0x01 -> mcmr_rcv_join_mgrp: ERR 1B11: Port 0x10bf482fd3f00001 (MT25408 ConnectX Mellanox Technologies) failed to join non-existing multicast group with MGID ffff:0:ffff:0:c867:44ab:fe7f:0, insufficient components specified for implicit create (comp_mask 0x10083)

Ocorre bastante.

É um problema de aparência muito semelhante ao seguinte relatório de bug arquivado aqui: link

Nesse relatório específico, o erro é contra o grupo mcast NTP.
Ou seja, MGID ff12: 401b: ffff :: 101 onde de alguma forma 101 é interpretado como 224.0.1.1 e a partir disso eles dizem que é NTP.

Como 101 se tornou isso e o que é um MGID?

No meu caso, o MGID mostrado é: ffff: 0: ffff: 0: c867: 44ab: fe7f: 0

Isso se traduz em 224.0.0.0? afirma ser reservado. O que está acontecendo aqui?

    
por Matt 22.09.2015 / 04:05

1 resposta

1

Em relação ao ff12: 401b: ffff :: 101, podemos fazer referência a RFC-5156 e ver que ff00 :: / 8 são endereços multicast. Olhando em RFC-4291 , ff12: ... é dividido em que ff denota multicast, e 12 é quebrado em sinalizadores 0x1 e escopo 0x2. sinalizadores 0x1 é "um endereço multicast não atribuído permanentemente (" transitório "ou" dinamicamente "atribuído)", e o escopo 0x2 é Link-Local.

Os próximos dois grupos, 401b: ffff ::, definem o tamanho da sub-rede. Então, de acordo com RFC-3306 , os quatro bytes finais são o ID do grupo, neste caso 0x101. 0x101 é reservado para o NTP, de acordo com o RFC-2375 . Talvez não coincidentemente, isso corresponde aos dois últimos bytes do endereço multicast IPv4 NTP, 224.0.1.1 ( RFC-5771 ).

Um MGID é simplesmente um ID de grupo multicast. Você tem IP over InfiniBand (IPoIB) configurado em sua interface IB e, com isso, um endereço IP (Type "ip addr" para listar suas interfaces e os endereços associados - você obterá um endereço local de link IPv6 em qualquer interface Agora, o seu servidor NTP está rodando, fazendo o tráfego de multicast e tentando usar qualquer interface de forma oportunista - daí a multidifusão na sua rede IB.

Seu endereço é um pouco diferente - não é um endereço multicast IPv6 padrão, já que FFFF: ... está reservado. No entanto, normalmente uma solução rápida é simplesmente reiniciar o OpenSM e o problema desaparece.

    
por 13.10.2015 / 23:03