Links de cobre instáveis de 10 Gb, placas Broadcom e Intel para switches Cisco 4900M

6

Compramos alguns servidores Dell PowerEdge R730 com placas PCI Express QLogic / Broadcom BCM57810 e os conectamos a switches Cisco 4900M - os links de 10 Gb não funcionam de maneira confiável. Eles às vezes não se conectam, às vezes se conectam depois de alguns minutos, e quando eles se conectam eles caem várias vezes ao dia. As desconexões podem durar 4 minutos ou 2 horas.

Os switches da Cisco têm links de cobre de 10 Gb existentes para as SANs Dell PowerVault, que estão estáveis e funcionando há muitos meses.

Eu vejo as desconexões nos registros do VMware como mensagens como:

bnx2x 0000:82:00.1: vmnic5: NIC Link is Down

e

 network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down.

Não consigo ver códigos de erro úteis ou mensagens anteriores, apenas mensagens causadas pelo link são descartadas. No Windows, ela é mostrada como uma placa desconectada e, no switch, aparece como uma porta de switch desconectada.

Quando os links se conectam, eles funcionam - pings de quadros jumbo ping, sessões iSCSI estabelecem, datastores aparecem com todos os caminhos encontrados. Mas as conexões são intermitentes.

Verificamos:

  • Os cabos:
    • originalmente único cabo Cat5e, agora cabeamento estruturado Cat6. O comprimento total do cabo é de < 7m.
    • Conectado com um novo cabo, host para alternar sem patches / juntas e nenhum outro cabo por perto.
  • Os drivers / sistema operacional:
    • Originalmente, o VMware ESXi 5.5 U2 da Dell ("ESXi 5.5.0, 2068190") com o driver bnx2x versão 2.710.39.v55.2
    • Em seguida, o driver atualizado do vmware.com, bnx2x versão 2.710.70.v50.7
    • Em seguida, o ESXi 6.0, Dell build ("ESXi 6.0.0 2494585") que possui a versão 2.712 do bnx2x ...
    • Em seguida, o Windows Server 2012 R2 com o driver mais recente do site da Dell.
  • O firmware da placa de rede QLogic / Broadcom; é o mais recente da Dell, FFv7.12.17.
  • A configuração da porta do comutador é simplesmente mtu 9000 e switchport access vlan NNN
  • As portas do switch
    • São módulos RJ45 de 10 Gb de 8 portas (WS-X4908-10G-RJ45), um por comutador. As SANs ocupam as primeiras quatro portas em cada módulo, os novos servidores ocupam as quatro portas restantes em cada módulo. Isso parece afetar todas as portas que estamos usando para os novos servidores. Portanto, não é uma porta com falha ou um módulo com falha.
    • Eu não tentei interromper as conexões SAN para testar essas portas, sem algum motivo específico para pensar que as portas 1-4 são mais confiáveis do que 5-8, o que seria um último recurso.
  • Os contadores da interface do switch, sem erros além das desconexões.
  • Desativando vários recursos de transferência no driver QLogic / Broadcom do Windows e ativando o EnergyEfficientEthernet, forçando os cartões a 10 Gb em vez de autodetectar.
  • Conectando os mesmos hosts aos mesmos switches em portas de 1 Gb, o que parece funcionar bem, eles se conectam repetidamente muito rapidamente.
  • Conectando-se a dois hosts, eles se conectam rapidamente a 10 Gb e mantêm uma conexão estável por dias.
  • Compramos uma placa Intel X540-t2 e tentamos isso. Ele se comporta da mesma forma.
  • Desde então, compramos cabos de patch Cat 6a e os testamos, sem alterações.

Nós fizemos uma ligação com o suporte da Dell, eles não encontraram nada de errado e sugerem que os switches estão em falha, mas como os switches executam conexões de cobre de 10Gb para o Dell PowerVault Storage e, até onde eu sei, de nossos logs de monitoramento de switch e os logs de eventos SAN, esses links não caem, não estou disposto a pensar que os switches da Cisco são o problema.

Eles estão rodando o IOS 15.1 (1) SG2 que não é o mais recente, mas os switches estão ativos e estáveis, eu não quero mudar o firmware casualmente "apenas no caso".

Isso acontece em vários servidores, várias placas de rede, várias marcas de placa de rede, várias versões de driver, vários switches. Não pode ser um único hardware defeituoso. Está tudo em um rack com ar-condicionado e com ar condicionado.

Esta é a primeira vez que experimentamos o host VMware para alternar conexões em 10Gb, por isso não temos nenhuma outra configuração que possamos comparar ou hardware com o qual possamos nos conectar.

O que mais podemos verificar?

Editar : Estávamos procurando atualizar o firmware do switch, mas acabamos de encontrar um link relacionado - este parece ser um problema conhecido entre o módulo Cisco WS-X4908-10G-RJ45 e o Broadcom BCM57810 cartões, dependente da versão do IOS - link que tem um muita discussão relevante, e leva a:

https://tools.cisco.com/bugsearch/bug/CSCug68370

WS-X4908-10G-RJ45 and Broadcom 57810S 10Gb BASE-T interoperability issue

CSCug68370

Description

Symptom: 10Gbps BaseT ports (on WS-X4908-10G-RJ45) connected to Dell 820 servers with Broadcom 57810S DP 10Gb BASE-T. On a reload of the switch or removal / re-install of the cable ports are coming up after a long time (up to 1 hour) or not coming up at all. Conditions: 1) Module WS-X4908-10G-RJ45 2) Versions 15.0(2)SG through 15.0(2)SG7, 15.1(2)SG through 15.1(2)SG3 Workaround: Downgrade to 12.2(54)SG

Isso não é exatamente o mesmo modelo de servidor, e ele não menciona os cartões da Intel, mas o problema é um bom resultado.

    
por TitanBar 03.08.2015 / 20:30

2 respostas

2

Bem, parece que o link do bug da Cisco e a atualização para uma das versões do IOS "fixas conhecidas" ( 15.1 (2) SG4) parece tê-lo corrigido.

    
por 11.08.2015 / 21:40
3

Atualize seus hosts do ESXi. Essa é a única coisa que você realmente perdeu nas etapas de solução de problemas.

A sua instalação 5.5 tem quase 1 ano de idade !!

No momento em que escrevo, a versão atual do ESXi 5.5 é 2718055 . O número de compilação atual do ESXi 6.0 é 2809209 .

A Dell, HP, não importa ... você ainda deve atualizar suas instalações do ESXi. Muitas pessoas ignoram isso , e é a segunda causa mais frequente de indisponibilidade não intencional nos ambientes que vejo.

    
por 03.08.2015 / 20:58