Tente alterar as "Configurações de hardware atuais" para o valor máximo permitido.
ethtool -G eno49 rx 4078
Temos NICs 2x10G configurados em uma interface bond
e estamos vendo aleatoriamente:
RX errors 28751549 dropped 46541 overruns 28751549 frame 0
Temos várias VLANs em execução neste NIC, então é uma porta de tronco.
A NIC é um Broadcom Corporation NetXtreme II BCM57810 10 Gigabit Ethernet (rev 10)
Eu tenho o seguinte tamanho de buffer de anel RX. Não tenho certeza de onde vem.
# ethtool -g eno49
Ring parameters for eno49:
Pre-set maximums:
RX: 4078
RX Mini: 0
RX Jumbo: 0
TX: 4078
Current hardware settings:
RX: 407
RX Mini: 0
RX Jumbo: 0
TX: 4078
algumas estatísticas:
# ethtool -S eno49 | grep rx
[0]: rx_bytes: 35806944147
[0]: rx_ucast_packets: 254721712
[0]: rx_mcast_packets: 109111
[0]: rx_bcast_packets: 26
[0]: rx_discards: 3599652
[0]: rx_phy_ip_err_discards: 0
[0]: rx_skb_alloc_discard: 0
[0]: rx_csum_offload_errors: 341
[1]: rx_bytes: 35586576857
[1]: rx_ucast_packets: 251529817
[1]: rx_mcast_packets: 0
[1]: rx_bcast_packets: 0
[1]: rx_discards: 3586872
[1]: rx_phy_ip_err_discards: 0
[1]: rx_skb_alloc_discard: 0
[1]: rx_csum_offload_errors: 127
[2]: rx_bytes: 35580155284
[2]: rx_ucast_packets: 251785183
[2]: rx_mcast_packets: 0
[2]: rx_bcast_packets: 0
[2]: rx_discards: 3584128
[2]: rx_phy_ip_err_discards: 0
[2]: rx_skb_alloc_discard: 0
[2]: rx_csum_offload_errors: 125
[3]: rx_bytes: 35614282304
[3]: rx_ucast_packets: 251757796
[3]: rx_mcast_packets: 0
[3]: rx_bcast_packets: 0
[3]: rx_discards: 3587512
[3]: rx_phy_ip_err_discards: 0
[3]: rx_skb_alloc_discard: 0
[3]: rx_csum_offload_errors: 161
[4]: rx_bytes: 35547320461
[4]: rx_ucast_packets: 251679615
[4]: rx_mcast_packets: 0
[4]: rx_bcast_packets: 0
[4]: rx_discards: 3596817
[4]: rx_phy_ip_err_discards: 0
[4]: rx_skb_alloc_discard: 0
[4]: rx_csum_offload_errors: 1171
[5]: rx_bytes: 36582099166
[5]: rx_ucast_packets: 253331335
[5]: rx_mcast_packets: 0
[5]: rx_bcast_packets: 0
[5]: rx_discards: 3590358
[5]: rx_phy_ip_err_discards: 0
[5]: rx_skb_alloc_discard: 0
[5]: rx_csum_offload_errors: 982
[6]: rx_bytes: 35710085729
[6]: rx_ucast_packets: 252379427
[6]: rx_mcast_packets: 0
[6]: rx_bcast_packets: 0
[6]: rx_discards: 3589068
[6]: rx_phy_ip_err_discards: 0
[6]: rx_skb_alloc_discard: 0
[6]: rx_csum_offload_errors: 745
[7]: rx_bytes: 166064885960
[7]: rx_ucast_packets: 418819356
[7]: rx_mcast_packets: 0
[7]: rx_bcast_packets: 0
[7]: rx_discards: 3617142
[7]: rx_phy_ip_err_discards: 0
[7]: rx_skb_alloc_discard: 0
[7]: rx_csum_offload_errors: 161
rx_bytes: 416492349908
rx_error_bytes: 0
rx_ucast_packets: 2186004241
rx_mcast_packets: 109111
rx_bcast_packets: 26
rx_crc_errors: 0
rx_align_errors: 0
rx_undersize_packets: 0
rx_oversize_packets: 0
rx_fragments: 0
rx_jabbers: 0
rx_discards: 28751549
rx_filtered_packets: 7716855
rx_mf_tag_discard: 0
rx_brb_discard: 0
rx_brb_truncate: 0
rx_pause_frames: 0
rx_mac_ctrl_frames: 0
rx_constant_pause_events: 0
rx_phy_ip_err_discards: 0
rx_skb_alloc_discard: 0
rx_csum_offload_errors: 3813
Como faço para rastrear esse problema? Está acontecendo em vários servidores, não em uma única máquina. Nós não temos muito tráfego para preencher o link também.
Tente alterar as "Configurações de hardware atuais" para o valor máximo permitido.
ethtool -G eno49 rx 4078