Bem, parece que o link do bug da Cisco e a atualização para uma das versões do IOS "fixas conhecidas" ( 15.1 (2) SG4) parece tê-lo corrigido.
Compramos alguns servidores Dell PowerEdge R730 com placas PCI Express QLogic / Broadcom BCM57810 e os conectamos a switches Cisco 4900M - os links de 10 Gb não funcionam de maneira confiável. Eles às vezes não se conectam, às vezes se conectam depois de alguns minutos, e quando eles se conectam eles caem várias vezes ao dia. As desconexões podem durar 4 minutos ou 2 horas.
Os switches da Cisco têm links de cobre de 10 Gb existentes para as SANs Dell PowerVault, que estão estáveis e funcionando há muitos meses.
Eu vejo as desconexões nos registros do VMware como mensagens como:
bnx2x 0000:82:00.1: vmnic5: NIC Link is Down
e
network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down.
Não consigo ver códigos de erro úteis ou mensagens anteriores, apenas mensagens causadas pelo link são descartadas. No Windows, ela é mostrada como uma placa desconectada e, no switch, aparece como uma porta de switch desconectada.
Quando os links se conectam, eles funcionam - pings de quadros jumbo ping, sessões iSCSI estabelecem, datastores aparecem com todos os caminhos encontrados. Mas as conexões são intermitentes.
Verificamos:
mtu 9000
e switchport access vlan NNN
Nós fizemos uma ligação com o suporte da Dell, eles não encontraram nada de errado e sugerem que os switches estão em falha, mas como os switches executam conexões de cobre de 10Gb para o Dell PowerVault Storage e, até onde eu sei, de nossos logs de monitoramento de switch e os logs de eventos SAN, esses links não caem, não estou disposto a pensar que os switches da Cisco são o problema.
Eles estão rodando o IOS 15.1 (1) SG2 que não é o mais recente, mas os switches estão ativos e estáveis, eu não quero mudar o firmware casualmente "apenas no caso".
Isso acontece em vários servidores, várias placas de rede, várias marcas de placa de rede, várias versões de driver, vários switches. Não pode ser um único hardware defeituoso. Está tudo em um rack com ar-condicionado e com ar condicionado.
Esta é a primeira vez que experimentamos o host VMware para alternar conexões em 10Gb, por isso não temos nenhuma outra configuração que possamos comparar ou hardware com o qual possamos nos conectar.
O que mais podemos verificar?
Editar : Estávamos procurando atualizar o firmware do switch, mas acabamos de encontrar um link relacionado - este parece ser um problema conhecido entre o módulo Cisco WS-X4908-10G-RJ45 e o Broadcom BCM57810 cartões, dependente da versão do IOS - link que tem um muita discussão relevante, e leva a:
https://tools.cisco.com/bugsearch/bug/CSCug68370
WS-X4908-10G-RJ45 and Broadcom 57810S 10Gb BASE-T interoperability issue
CSCug68370
Description
Symptom: 10Gbps BaseT ports (on WS-X4908-10G-RJ45) connected to Dell 820 servers with Broadcom 57810S DP 10Gb BASE-T. On a reload of the switch or removal / re-install of the cable ports are coming up after a long time (up to 1 hour) or not coming up at all. Conditions: 1) Module WS-X4908-10G-RJ45 2) Versions 15.0(2)SG through 15.0(2)SG7, 15.1(2)SG through 15.1(2)SG3 Workaround: Downgrade to 12.2(54)SG
Isso não é exatamente o mesmo modelo de servidor, e ele não menciona os cartões da Intel, mas o problema é um bom resultado.
Bem, parece que o link do bug da Cisco e a atualização para uma das versões do IOS "fixas conhecidas" ( 15.1 (2) SG4) parece tê-lo corrigido.
Atualize seus hosts do ESXi. Essa é a única coisa que você realmente perdeu nas etapas de solução de problemas.
A sua instalação 5.5 tem quase 1 ano de idade !!
No momento em que escrevo, a versão atual do ESXi 5.5 é 2718055 . O número de compilação atual do ESXi 6.0 é 2809209 .
A Dell, HP, não importa ... você ainda deve atualizar suas instalações do ESXi. Muitas pessoas ignoram isso , e é a segunda causa mais frequente de indisponibilidade não intencional nos ambientes que vejo.