Problemas básicos de desempenho de rede multicast

2

Eu tenho usado o mpong do pacote mtools da 29west para ter uma idéia básica da latência de multicast em vários switches da Cisco: 1Gb 2960G, 10Gb 4900M e 10Gb Nexus N5548P. O 1Gb é apenas para comparação.

Eu tenho os seguintes resultados para ~ 400 execuções de mpong em cada comutador (enviando 65536 mensagens semelhantes a "ping" para um receptor que, em seguida, envia de volta - em todo multicast). Os números são latências medidas em microssegundos.

Switch           Average      StdDev      Min         Max
2960 (1Gb)       109.68463    0.092816    109.4328    109.9464
4900M (10Gb)     705.52359    1.607976    703.7693    722.1514
NX 5548(10Gb)    58.563774    0.328242    57.77603    59.32207

O resultado para o 4900M é muito surpreendente. Eu tentei ping unicast e vejo o 4900 tem ~ 10us maior latência do que o N5548P (média 73us vs 64us). O Iperf (sem nenhuma tentativa de ajustá-lo) mostra que os dois switches de 10 Gb me proporcionam uma velocidade de linha de 9,4 Gbps.

As duas máquinas estão conectadas ao mesmo switch e não estamos fazendo nenhum roteamento multicast. O sistema operacional é RHEL 6. As placas de rede de 10 Gb são placas de rede de porta dupla HP 10GbE PCI-E G2 (acredito que sejam placas Mellanox renomeadas).

O switch 4900 é usado em um projeto com controle de acesso restrito, portanto estou aguardando aprovação antes de poder acessá-lo e verificar a configuração. Os outros dois eu tenho acesso total para configurar.

Eu olhei para o documento da Cisco [1] detalhando as diferenças entre o NX-OS e o IOS wrt multicast, então tenho algumas idéias para testar, mas essa não é uma área em que eu tenha muita experiência.

Alguém tem alguma idéia do que eu deveria estar olhando quando eu tiver acesso ao switch?

[1] link

Editar (12 jan 0945 GMT):

O 4900M tem a detecção de IGMP ativada. Não vejo perda de pacotes ou erros nos contadores no switch ou nos servidores.

Eu dei uma olhada no uso da CPU e parece estar em 94% ao enviar as mensagens de ping. 75% é "Cat4k Mgmt LoPri", 6% é "IP Input", 3% é "Cat4k Mgmt HiPri"

Edit2 (12 jan 1000 GMT):

O uso da CPU cai para 8% quando eu paro as mensagens.

Edit3 (13 jan 0945 GMT):

O problema é relacionado à camada 3. Se eu desabilitar a interface VLAN, a latência cai para 72us.

A configuração da vlan é

vlan 110
 name 192.168.110/24-10Ge
end

...snip...

interface Vlan110
 description 10G Test Vlan
 ip address 192.168.110.4 255.255.255.0
 ip pim sparse-mode
end
    
por davedavedave 11.01.2011 / 12:01

3 respostas

0

Resolvido. O problema era que não havia um PIM RP configurado.

    
por 24.01.2011 / 17:12
1

Dave, seu prognóstico da camada 3 pode estar certo.

experimente estas duas documentações: link

você tem seu roteamento multicast IP ativado? desabilite isso.

habilite o snooping do igmp, ative o mrouter - solution 3 ( link ) no interruptor.

Syson (Toronto)

    
por 14.01.2011 / 15:33
0

O 4900 tem o "ip mcast cef" (ou o que o comando 'use cef for multicast forwarding' realmente está habilitado)? Algumas plataformas usarão como padrão o uso de comutação de processos para encaminhamento de multicast (e algumas plataformas, com algumas versões do IOS terão cenários de falha interessantes usando CEF para multicast, portanto ...) e isso causará carga e latência extremas.

    
por 12.01.2011 / 11:28