Interface de rede que cai periodicamente com a velocidade alterada para 0 erros do kernel

1

Nos últimos dois dias, a interface de rede vinculada em um de nossos servidores parou de responder.

Olhando pelos logs do kernel, noto que quando a interface fica inativa, estamos recebendo muitos erros repetidos no formulário:

[76019.645601] e1000e 0000:03:00.0 p9p1: speed changed to 0 for port p9p1
[76325.575540] e1000e 0000:03:00.0 p10p1: speed changed to 0 for port p10p1

Após uma pesquisa rápida em busca de problemas semelhantes, não consegui encontrar ninguém que tenha relatado esse tipo de comportamento antes.

Para fornecer mais alguns detalhes sobre a configuração do servidor:

  • Ambas as interfaces de rede ligadas estão associadas aos controladores ethernet Intel 82574L.
  • O servidor está executando o Ubuntu 16.04, com a versão do kernel do Linux 4.4.0-101-generic .
  • A interface de rede ligada tem a seguinte configuração:

    auto p9p1
    iface p9p1 inet manual
    bond-master bond0
    
    auto p10p1
    iface p10p1 inet manual
    bond-master bond0
    
    auto bond0
    iface bond0 inet static
    address 10.0.0.10
    gateway 10.0.0.1
    netmask 255.255.255.0
    bond-mode 4
    bond-miimon 100
    bond-lacp-rate 1
    bond-slaves p9p1 p10p1
    dns-nameservers 10.0.0.2 10.0.0.3
    
  • Quando a interface de rede fica inativa, reiniciar o serviço de rede no servidor, executando service networking restart , parece remediar os problemas

Eu queria saber se alguém já teve problemas semelhantes antes e ou tem alguma sugestão para depurar a causa de algo assim?

    
por PicoutputCls 24.11.2017 / 11:45

1 resposta

0

Parece que, para mim, esses problemas provavelmente foram causados por um bug conhecido no kernel Linux v4.4.0-97-generic no Ubuntu 16.04: e1000e em 4.4.0-97-breaks genéricos 82574L sob carga pesada.

Tendo aplicado o versão do kernel de teste v4.4.0-98 , enviado pelo responsável pelo bug, no rastreador de bugs do pacote Ubuntu Linux, eu não experimentei o comportamento errôneo retornando após um fim de semana de testes de carga bastante pesados da interface vinculada.

    
por 27.11.2017 / 19:42