Fast IP Forwarding para WAN, mas cai no precipício entre sub-redes LAN

0

Substitui meu roteador sem fio do consumidor por uma caixa linux que possui uma placa PCIe NIC de quatro gigabits e uma única NIC gigabit na placa-mãe (para a WAN). Depois de ativar o encaminhamento de IP, fazer o mascaramento (via iptables ) e configurar sub-redes em cada uma das quatro interfaces de LAN, executei alguns testes de velocidade.

$ ip route
default dev ppp0 scope link 
10.0.0.0/16 dev enp3s0f0 proto kernel scope link src 10.0.0.1 
10.64.0.0/16 dev enp3s0f1 proto kernel scope link src 10.64.0.1 
10.192.0.0/16 dev enp4s0f1 proto kernel scope link src 10.192.0.1 
aaa.bbb.ccc.ddd dev ppp0 proto kernel scope link src www.xxx.yyy.zzz 
  • De um dispositivo sem fio em uma das sub-redes LAN a um servidor speedtest na WAN, recebo os 40 Mbps / 5 Mbps completos pelos quais pago meu ISP.

  • Do host do roteador para um host de LAN com fio usando iperf3 , posso manter consistentemente 930+ Mbps por vários minutos.

  • De um dispositivo com fio em uma das sub-redes LAN para um dispositivo com fio em uma sub-rede LAN diferente usando iperf3 I inicialmente 80-95 Mbps nos primeiros segundos, mas rapidamente cai para zero.

  • De um dispositivo com fio em uma das sub-redes LAN para um dispositivo com fio em uma sub-rede LAN diferente usando iperf3 com uma taxa de bits de 20 Mbps, vejo resultados semelhantes (consulte a atualização no final), mas sustentar cerca de 10 Mpbs

.

Connecting to host 10.0.0.2, port 5201
[  5] local 10.192.128.3 port 35620 connected to 10.0.0.2 port 5201
[ ID] Interval           Transfer     Bitrate         Retr  Cwnd
[  5]   0.00-1.00   sec  10.2 MBytes  85.9 Mbits/sec    0   73.5 KBytes       
[  5]   1.00-2.00   sec  9.01 MBytes  75.6 Mbits/sec    0   82.0 KBytes       
[  5]   2.00-3.00   sec  8.26 MBytes  69.3 Mbits/sec    0   79.2 KBytes       
[  5]   3.00-4.00   sec  9.01 MBytes  75.6 Mbits/sec    0   73.5 KBytes       
[  5]   4.00-5.00   sec  5.28 MBytes  44.3 Mbits/sec    1   1.41 KBytes       
[  5]   5.00-6.00   sec  0.00 Bytes  0.00 bits/sec    1   1.41 KBytes       
[  5]   6.00-7.00   sec  0.00 Bytes  0.00 bits/sec    1   1.41 KBytes       
[  5]   7.00-8.00   sec  0.00 Bytes  0.00 bits/sec    1   1.41 KBytes       
[  5]   8.00-9.00   sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes       
^C[  5]  10.00-13.63  sec  0.00 Bytes  0.00 bits/sec    1   1.41 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bitrate         Retr
[  5]   0.00-13.63  sec  41.8 MBytes  25.7 Mbits/sec    5             sender
[  5]   0.00-13.63  sec  0.00 Bytes  0.00 bits/sec                  receiver
iperf3: interrupt - the client has terminated

Isso está sugerindo que há alguns problemas no encaminhamento de pacotes entre as sub-redes. Primeiro, assegurei que minhas regras de iptables são mínimas possíveis:

-t nat -A POSTROUTING -o ppp0 -j MASQUERADE
# WAN connection is PPPoE and VLAN tagged
-t filter -A FORWARD -o ppp0 -p tcp --tcp-flags SYN,RST SYN -j TCPMSS  --clamp-mss-to-pmtu

Descarregando o estado iptables , vejo baixas contagens de pacotes para ambas as regras.

Em seguida, verifiquei a perda de pacotes. Parece haver uma pequena mas consistente quantidade de perda / retransmissão de pacotes.

$ sudo netstat -s | egrep -i 'retransmit|drop'
    498 outgoing packets dropped
    25848 fast retransmits

Eu então pensei que talvez houvesse um buffer ou fila preenchendo e pacotes sendo descartados. Calculei o produto médio de atraso de largura de banda e comparei isso com a memória reservada.

$ sudo ping -f 10.0.0.2 -s $((1500-28))               
PING 10.0.0.2 (10.0.0.2) 1472(1500) bytes of data.
.^C
--- 10.0.0.2 ping statistics ---
9036 packets transmitted, 9035 received, 0% packet loss, time 26512ms
rtt min/avg/max/mdev = 1.742/2.817/12.057/0.758 ms, pipe 2, ipg/ewma 2.934/3.091 ms

$ echo "1*(1024^3) * 0.003" | bc 
3221225.472

$ cat /proc/sys/net/ipv4/tcp_mem
18396   24529   36792

$ getconf PAGESIZE
4096

Isso parece ser suficiente. Então agora estou um pouco preso. Eu corri tcpdump no cliente iperf3 e posso ver as coisas se movendo bem por um tempo. Então eu vejo um longo período (quase 250ms) de silêncio antes de muitas retransmissões e duplicados agradecimentos.

Como posso obter velocidades de download suficientes da WAN, não suspeito que a NIC onboard esteja com defeito. Estou à procura de ajuda para diagnosticar este quad-NIC (detalhes abaixo) e, possivelmente, um switch mudo de 2 gigabits de camada (Netgear GS-108) e qualquer outra configuração de kernel que possa estar atrapalhando. Eu duvido que seja o switch, já que ele nunca foi um problema antes e posso manter a velocidade do loopback do roteador para essa sub-rede. Apenas o desempenho entre sub-redes parece ser afetado.

  *-network:0               
       description: Ethernet interface
       product: 82571EB Gigabit Ethernet Controller (Copper)
       vendor: Intel Corporation
       physical id: 0
       bus info: pci@0000:03:00.0
       logical name: enp3s0f0
       version: 06
       serial: 00:26:55:xx:xx:xx
       size: 1Gbit/s
       capacity: 1Gbit/s
       width: 32 bits
       clock: 33MHz
       capabilities: pm msi pciexpress bus_master cap_list ethernet physical tp 10bt 10bt-fd 100bt 100bt-fd 1000bt-fd autonegotiation
       configuration: autonegotiation=on broadcast=yes driver=e1000e driverversion=3.2.6-k duplex=full firmware=5.12-2 ip=10.0.0.1 latency=0 link=yes multicast=yes port=twisted pair speed=1Gbit/s
       resources: irq:24 memory:fe920000-fe93ffff memory:fe880000-fe8fffff ioport:d020(size=32)

ATUALIZAÇÃO:

$ iperf3 -b 20m -c 10.0.0.2
Connecting to host 10.0.0.2, port 5201
[  5] local 10.192.128.3 port 36554 connected to 10.0.0.2 port 5201
[ ID] Interval           Transfer     Bitrate         Retr  Cwnd
[  5]   0.00-1.00   sec  2.49 MBytes  20.9 Mbits/sec    0    158 KBytes       
[  5]   1.00-2.00   sec  2.38 MBytes  19.9 Mbits/sec    0    150 KBytes       
[  5]   2.00-3.00   sec  2.38 MBytes  19.9 Mbits/sec    1    133 KBytes       
[  5]   3.00-4.00   sec  2.38 MBytes  19.9 Mbits/sec    0   73.5 KBytes       
[  5]   4.00-5.00   sec  2.38 MBytes  19.9 Mbits/sec    0   70.7 KBytes       
[  5]   5.00-6.00   sec  1.12 MBytes  9.44 Mbits/sec    2   1.41 KBytes       
[  5]   6.00-7.00   sec  0.00 Bytes  0.00 bits/sec    2   1.41 KBytes       
[  5]   7.00-8.00   sec  0.00 Bytes  0.00 bits/sec    0   1.41 KBytes       
[  5]   8.00-9.00   sec  0.00 Bytes  0.00 bits/sec    1   1.41 KBytes       
iperf3: error - control socket has closed unexpectedly

$ iperf3 -b 10m -c 10.0.0.2 
Connecting to host 10.0.0.2, port 5201
[  5] local 10.192.128.3 port 36564 connected to 10.0.0.2 port 5201
[ ID] Interval           Transfer     Bitrate         Retr  Cwnd
[  5]   0.00-1.00   sec  1.24 MBytes  10.4 Mbits/sec    0    201 KBytes       
[  5]   1.00-2.00   sec  1.25 MBytes  10.5 Mbits/sec    0    118 KBytes       
[  5]   2.00-3.00   sec  1.12 MBytes  9.44 Mbits/sec    0    127 KBytes       
[  5]   3.00-4.00   sec  1.25 MBytes  10.5 Mbits/sec    0    107 KBytes       
[  5]   4.00-5.00   sec  1.12 MBytes  9.44 Mbits/sec    0    110 KBytes       
[  5]   5.00-6.00   sec  1.25 MBytes  10.5 Mbits/sec    0   90.0 KBytes       
[  5]   6.00-7.00   sec  1.12 MBytes  9.44 Mbits/sec    0   87.2 KBytes       
[  5]   7.00-8.00   sec  1.25 MBytes  10.5 Mbits/sec    0   81.6 KBytes       
[  5]   8.00-9.00   sec  1.12 MBytes  9.44 Mbits/sec    0   78.8 KBytes       
[  5]   9.00-10.00  sec  1.25 MBytes  10.5 Mbits/sec    0    112 KBytes       
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bitrate         Retr
[  5]   0.00-10.00  sec  12.0 MBytes  10.1 Mbits/sec    0             sender
[  5]   0.00-10.04  sec  12.0 MBytes  10.0 Mbits/sec                  receiver

iperf Done.
    
por Huckle 25.02.2018 / 06:54

1 resposta

0

Obrigado ao @Pedro por me ajudar a entender. Originalmente, achei que este era um hardware ruim, mas depois de substituí-lo por outro, estou certo de que é um problema de driver. Eu ainda estou cavando para descobrir se este é um bug que já foi relatado ou não (e se existe uma correção). Nesse meio tempo, eu localizei uma pergunta de falha de servidor que vinculada a um relatório de erros que sugeria desativar vários recursos de descarregamento. Isso pelo menos me levou de 0 bps a ~ 270 Mbps de forma estável. Muito longe dos ~ 940 Mbps que é capaz, mas melhor que nada enquanto eu continuo pesquisando.

ethtool -K eth0 gso off gro off tso off
    
por 25.02.2018 / 09:38