eth0 O NIC Link está em Down repetindo a mensagem no log do kernel

13

Tenho notado desde alguns dias atrás que o mesmo tipo de mensagens repetidas ocorre e eu posso dizer que nada foi intencionalmente alterado (instalado / desinstalado) naquele período.

aqui está uma amostra da mensagem /var/log/kern.log :

Mar 30 06:32:45 aurora kernel: [566322.867110] e1000e: eth0 NIC Link is Down

Mar 30 06:32:47 aurora kernel: [566325.313634] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx

Mar 30 06:32:59 aurora kernel: [566337.632930] e1000e: eth0 NIC Link is Down

Mar 30 06:33:18 aurora kernel: [566356.543664] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: None

Mar 30 11:05:47 aurora kernel: [582689.779752] e1000e: eth0 NIC Link is Down

Mar 30 11:05:50 aurora kernel: [582692.174337] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx

do arquivo de log completo - quando considerar todas as mensagens de log desse tipo - concluo:

  • eth0 falha a cada poucas horas
  • eth0 falha no primeiro caso por dois e em segundo por 19 segundos

É o servidor de produção que estou falando aqui.

Como resolver esse problema, já que o servidor de e-mail está em produção e falhas de rede com duração de 19 segundos não podem tolerar?

    
por Miloš Đakonović 30.03.2014 / 13:16

2 respostas

9
  1. verifique se há erros na ligação, observe o campo "erros" na saída de ifconfig . Se não for zero, haverá problemas com o hardware (cabo, placa NIC ou hub / switch). Um cabo Ethernet não confiável também causará erros neste campo.
  2. substitua o cabo Ethernet, independentemente da etapa 1. Isso é rápido, barato e fácil, e deve ser feito sempre que o link estiver subindo e descendo em intervalos aleatórios.
  3. use ethtool e verifique se as configurações de rede (duplex, etc) correspondem às do switch. Se você não for o administrador do switch, peça ao administrador da rede para fornecer as configurações.
  4. se o switch tiver o controle de fluxo ativado, certifique-se de que ele esteja ativado em sua caixa do Linux. Caso contrário, desative-o.

Como nota lateral, você deve avaliar se precisa de controle de fluxo. De acordo com a HP, isso é necessário apenas para aplicações de alto desempenho: veja Artigo HP sobre Quando usar o controle de fluxo

    
por 12.03.2015 / 22:25
1

Aqui está minha correção. Esse problema acontece em um hardware específico (em uma máquina, apenas 1 de 2 portas na NIC), sempre com o driver e1000e, desde o kernel 3.9 ou mais. Este arquivo é para centos7, entra em /etc/init.d/ e tem que ser ativado com chkconfig --add <name> . O nome da interface é codificado ... certifique-se de configurá-lo.

#!/bin/sh

### BEGIN INIT INFO
# Provides:          pm-e1000e-fix
# Required-Start:    $network
# Required-Stop:     $network
# Default-Start:     2 3 4 5
# Default-Stop:      0 6
# Short-Description: workaround for e1000e issue
# Description:       e1000e fix
### END INIT INFO

################################################################################
# Give Usage Information                                                       #
################################################################################
usage() {
    echo "Usage: $0 start|restart" >&2
    exit 1
}

################################################################################
# E X E C U T I O N    B E G I N S   H E R E                                   #
################################################################################
command="$1"
shift

interface="eth0"

case "$command" in
    start)
        ethtool -K "$interface" gso off gro off tso off
        ;;
    restart)
        ethtool -K "$interface" gso off gro off tso off
        ;;
    *)
        usage
        ;;
esac
    
por 21.03.2017 / 17:23