alguns nós em um cluster possuem um valor de quadro maior no ifconfig

2

Estou executando um cluster com 22 nós. (22 nós sob o mesmo switch de 1 Gbps.)
Eu notei que alguns nós no cluster tem maior valor de "frame" ifconfig como o seguinte.

some nodes (higher frame):
eth0      Link encap:Ethernet  HWaddr 90:B1:1C:09:D2:F8
          inet addr:192.168.121.20  Bcast:192.168.121.255  Mask:255.255.255.0
          inet6 addr: fe80::92b1:1cff:fe09:d2f8/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:643150667 errors:0 dropped:790 overruns:0 frame:280072
          TX packets:908361364 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:377424658828 (351.5 GiB)  TX bytes:864099883266 (804.7 GiB)
          Interrupt:170 Memory:d91a0000-d91b0000

other nodes (lower frame):
eth0      Link encap:Ethernet  HWaddr 24:B6:FD:F6:DF:34
          inet addr:192.168.121.3  Bcast:192.168.121.255  Mask:255.255.255.0
          inet6 addr: fe80::26b6:fdff:fef6:df34/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:1126524649 errors:0 dropped:118 overruns:0 frame:43775
          TX packets:847071691 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:992080311726 (923.9 GiB)  TX bytes:385366462299 (358.9 GiB)
          Interrupt:170 Memory:d91a0000-d91b0000

O que pode estar errado com isso?

Eu também corri ethtool e "rxbds_empty" corresponde a "frame" em ifconfig e "rx_discards" corresponde a "dropped" em ifconfig.
o que é rxbds_empty e rx_discards?
Eu os investiguei, mas quase não há informações sobre isso.
Eles estão vindo de alguma configuração ou configuração ruim?

A coisa estranha é recém-adicionada 6 nós têm esse valor mais alto.
Além disso, notei que alguns programas são executados mais lentamente do que antes de adicionarmos esses 6 nós. O que o programa está fazendo é que cada nó solicita enorme quantidade de mensagens curtas para outros nós aleatórios em paralelo.
Idealmente, todo nó tem algum tempo de conclusão com o programa, mas os 6 nós adicionados são mais lentos que outros.

Alguém poderia me dar algum conselho? Qualquer ajuda será apreciada.

    
por hiroyuki 05.11.2012 / 02:40

1 resposta

0

Erros de quadros indicam algum tipo de falha de CRC que ocorre quando a NIC do nó está recebendo dados do switch. Você deve verificar o punho da camada física aqui:

  1. Teste o cabo usando (obviamente) um testador de cabos. Deve pelo menos estar de acordo com o padrão Cat5e.
  2. Verifique a MTU no comutador (os Jumbo Frames podem ser habilitados?)
  3. Confirme se as configurações da porta são idênticas no switch & nó: velocidade da porta, duplex e controle de fluxo.
  4. Verifique as estatísticas da porta no comutador (por exemplo, show interface Gi0/4 )
por 19.06.2013 / 12:03