Conexão Ethernet desativada consistentemente (CentOS 5.5 / Dell 2950)

2

Há alguns dias, a interface interna de um dos meus servidores de backup entrou em pane e não consegui que funcionasse corretamente desde então. No dmesg, estou vendo:

ADDRCONF(NETDEV_UP): eth0: link is not ready
bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex
ADDRCONF(NETDEV_CHANGE): eth0: link becomes ready
bnx2: eth1: using MSI
ADDRCONF(NETDEV_UP): eth1: link is not ready
bnx2: eth1 NIC Copper Link is Up, 1000 Mbps full duplex
ADDRCONF(NETDEV_CHANGE): eth1: link becomes ready
eth0: no IPv6 routers present
bnx2: eth1 NIC Copper Link is Down
eth1: no IPv6 routers present

O eth0 está funcionando corretamente como antes, mas o eth1 parece se conectar, subir e depois cair logo depois. Na primeira visita ao datacenter, ligar um novo cabo ethernet pareceu corrigir temporariamente o problema, mas desde então ocorreu novamente e agora acontece de forma consistente.

Eu tentei:

  • Trocando as portas do switch (pensando nisso pode ter sido um porto morto / morrendo em este Cisco 2960)
  • Troca em um novo cabo, mas ainda não funciona, e ambos os cabos funcionam corretamente no meu laptop de teste.

Este poderia ser um problema de software? Alguma outra ideia?

Editar: Mais informações

Meu / etc / sysconfig / network-scripts / ifcfg-eth1 se parece com:

# Broadcom Corporation NetXtreme II BCM5708 Gigabit Ethernet
DEVICE=eth1
HWADDR=00:22:19:**:**:**
DHCP_HOSTNAME=******.*******.COM
ONBOOT=yes
BOOTPROTO=static
IPADDR=192.168.0.117
NETMASK=255.255.255.0
#ETHTOOL_OPTS="autoneg on"

(desde então, comentei o ETHTOOL_OPTS="autoneg on" para testes)

Atualização: Eu tinha um switch de teste no rack (consumidor gigabit Netgear) que usamos para a rede interna de gerenciamento de rede DRAC. Conectar isso ao switch local e depois ao servidor gera:

eth1: no IPv6 routers present
bnx2: eth1 NIC Copper Link is Up, 100 Mbps full duplex, receive & transmit flow control ON

Não é gigabit, mas parece estar funcionando perfeitamente. (não se preocupa com a velocidade da rede neste momento). No entanto, como eu iria sobre a depuração de um problema como este, o servidor não é diferente dos outros 20 Poweredge 2950 que temos lá, todos com a mesma configuração e ainda funcionando corretamente. A única vez que eu vi um problema como este é conectar os cartões DRAC ao Cisco 2950 (eles se recusaram a negociar automaticamente também).

Poderia ser um NIC com falha, que agora não está negociando automaticamente ou há algo que eu deveria verificar no próprio sistema, o que pode estar atrapalhando?

    
por kwiksand 04.04.2011 / 12:00

1 resposta

2

Obrigado pela informação. Você parece ter percorrido as substituições de cabeamento e switchport, o que eliminaria todos os elementos físicos que impediam a própria NIC de ter falhas.

Se você tentou hardwiring o link em ambas as extremidades com ethtool no 10full, 100full etc sem controle de fluxo ou autoneg, então não há muito mais para tentar.

Duas coisas vêm à mente:

Compre uma placa de rede USB e conecte-a ao switch (elas são uma libra mais entrega USB NICs (realmente!) pegue o extensor USB de 0.5m para que ele possa montar o rack corretamente. Você só receberá 100 Mbps, mas é um bom failover se sua NIC tiver desistido do fantasma. Eles usam os drivers Pegasus e trabalham no Debian e no Ubuntu se isso ajudar.

Em segundo lugar, instale ethtool , se já não estiver, e execute "ethtool -S eth1" para um relatório completo sobre estatísticas.

Eu ficaria com o NIC USB e o colocaria em um NIC com falha se não houver outros erros e você não conseguir mais informações de depuração.

    
por 04.04.2011 / 13:52