bnx2 e e1000e no RHEL 5.3 detectam perda de link repetida

3

ATUALIZAÇÃO: O problema era hardware defeituoso no switch. Obrigado a todos vocês pelas boas sugestões de depuração. Resposta correta dada ao MattyB por sugerir o uso de um switch diferente para ver se o problema persistiu.

Olá serverfault,

Estou tentando depurar um problema em vários nós que estão detectando repetidamente a perda do link por 1-2 minutos por vez, quando não deve haver perda de link.

Servidores:
- HP DL360 G5
- 1 Gigabit Ethernet Broadcom NetXtreme II de 2 portas Broadcom NetXtreme II (usando o driver bnx2)

- 1 Controlador Ethernet Gigabit Intel 82571EB de 4 portas (Cobre) (rev 06) (usando o driver e1000e)

Fatos:
- Em todos os nós, as duas portas Broadcom e uma porta Intel estão conectadas ao mesmo switch. - UPDATE : perda de link é detectada em portas em ambos os NICs, Broadcom e Intel
- Todas as portas estão na velocidade Gb / s, exceto as portas Intel em dois dos nós, que estão na velocidade de 100Mb / s. Todas as velocidades definidas usando a negociação automática.
- Todos os nós foram atualizados recentemente do RHEL 5.0 para o RHEL 5.3.

No momento, estou tentando obter acesso ao switch para forçar links Gbps / full duplex. Existe alguma coisa outra do que isso poderia ser feito para diagnosticar ou corrigir esse problema? Que informação adicional seria útil?

EDITAR: Eu executei o tcpdump em uma das interfaces afetadas, e tudo o que posso ver são pacotes LLDP e uma única Consulta de Membros do Grupo IGMP. Eu também configurei o switch para forçar todas as portas para links de 1000 Mbps, full duplex. Isso indica que o problema é interno ao nó e não é causado por nenhuma configuração no comutador?

====== Mensagens de log ======% Oct 29 11:30:36 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 11:30:37 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 11:30:39 db1 kernel: bnx2: eth1 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON
Oct 29 11:30:39 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 11:31:08 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 11:31:10 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON
Oct 29 12:56:41 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 12:56:41 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 12:58:34 db1 kernel: bnx2: eth1 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 12:58:34 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 12:59:02 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 12:59:03 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 12:59:05 db1 kernel: bnx2: eth1 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON
Oct 29 12:59:05 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex
Oct 29 12:59:34 db1 kernel: bnx2: eth0 NIC Copper Link is Down
Oct 29 12:59:35 db1 kernel: bnx2: eth1 NIC Copper Link is Down
Oct 29 12:59:37 db1 kernel: bnx2: eth0 NIC Copper Link is Up, 1000 Mbps full duplex, receive & transmit flow control ON

====== Saída do ethtool para todas as interfaces conectadas em um nó ======% [root@db1 ~]# ethtool eth0
Settings for eth0:
Supported ports: [ TP ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supports auto-negotiation: Yes
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised auto-negotiation: Yes
Speed: 1000Mb/s
Duplex: Full
Port: Twisted Pair
PHYAD: 1
Transceiver: internal
Auto-negotiation: on
Supports Wake-on: g
Wake-on: g
Link detected: yes
[root@db1 ~]# ethtool eth1
Settings for eth1:
Supported ports: [ TP ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supports auto-negotiation: Yes
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised auto-negotiation: Yes
Speed: 1000Mb/s
Duplex: Full
Port: Twisted Pair
PHYAD: 1
Transceiver: internal
Auto-negotiation: on
Supports Wake-on: g
Wake-on: g
Link detected: yes
[root@db1 ~]# ethtool eth2
Settings for eth2:
Supported ports: [ TP ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supports auto-negotiation: Yes
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised auto-negotiation: Yes
Speed: 100Mb/s
Duplex: Full
Port: Twisted Pair
PHYAD: 1
Transceiver: internal
Auto-negotiation: on
Supports Wake-on: pumbag
Wake-on: d
Current message level: 0x00000001 (1)
Link detected: yes

    
por nickthecook 29.10.2009 / 15:24

3 respostas

2

Isso é estranho. Como você está sofrendo uma perda nos dois nics, suspeito que isso excluiria um problema específico de firmware, um problema no driver do kernel ou um problema de hardware com defeito (exceto no que diz respeito à placa-mãe). Embora os registros que você publicou sejam específicos do BNX2. Você verificou que outras máquinas conectadas a esse mesmo switch com o mesmo perfil de hardware não estão exibindo o mesmo problema? Você deve tentar codificar as nics para 100 mbit / full assim como o switch e, por mais bobo que seja, verifique se há falhas no cabeamento. Finalmente, se os recursos permitirem, por que não tentar conectar essa máquina a um switch de terceiros (como um netgear ou algo igualmente inócuo). ?

Se vários nós estiverem experimentando a perda de links simultaneamente, eu diria até que você pode ter um erro de árvore de abrangência que está consistentemente agrupando seu switch para falhar e voltar a convergir. Qualquer informação adicional sobre topologia ajudaria a diagnosticar o problema.

    
por 02.11.2009 / 23:53
0
ethtool -K ethX tso off

Tente isso nas NICs broadcom. ele deve desativar o recurso ToE, que geralmente causa muita dor.

Você também pode tentar definir as portas para duplex ou simplex, em vez de negociação automática.

    
por 29.10.2009 / 15:39
0

Você está executando a última NIC e o firmware do servidor em suas máquinas? Teve alguns problemas semelhantes ao executar o firmware de NIC desatualizado nos sistemas HP DL380 e 360.

Como o dmesg se parece com a Intel NIC?

Você consegue acessar os registros do switch? O que fazer / modelo de switch é?

    
por 02.11.2009 / 22:54