Então aqui está a história sobre isso:
Eu estava olhando para isso da perspectiva errada. O adaptador anula um sintoma normal, indicando que algum componente em algum lugar não está acompanhando. Nesse caso, as anulações do adaptador eram um sintoma de que as portas front-end da SAN estavam muito ocupadas para atender às solicitações. Isso foi agravado por algumas condições diferentes.
1) Drivers ruins - Nosso nível de firmware do UCS determina um driver correspondente no ESXi que tenha problemas conhecidos se recuperando de interrupções, enviando-o para um loop que só pode ser limpo por uma reinicialização.
2) Excesso de Variáveis - Três SANs, com três problemas distintos, todos são representados pelo adaptador.
3) SAN Bugs - Nós tivemos que desativar o VAAI devido a erros no código EMC VNX causando problemas.
2015 EDIT:
Eu queria atualizar este tópico, porque muitas informações novas foram reveladas também, e a detecção é bem, difícil. Espero que este post guie algumas pessoas na direção certa.
1) Todos os itens acima ainda são relevantes, obtenham todos os dados ao quadrado e dentro de uma matriz de suporte o mais rápido possível.
2) Algumas versões do UCS 2.1 desativam acidentalmente (apesar do NXOS ainda estar configurado para isso) controle de fluxo de prioridade, o que faz com que alguns tráfegos do FCoE sejam tratados como o resto e, portanto, você fica fora de ordem. p>
3) Em algum lugar no meio do código UCS 2.1, uma configuração de IO Throttling passou de um campo cosmético para um campo ativo. A velha configuração de firmware "queimada" era uma contagem IO Throttle de 256, que todos os hosts usavam bastante, embora o driver do Windows permitisse que você ajustasse isso. Em algum lugar no meio desse código, o valor padrão original de "16" que usava para instalar "256" em hardware tornou-se uma configuração inválida, e o código UCSM começou a interpretar isso como "2048", que é o máximo. O resultado é que um único adaptador UCS VIC está sendo configurado para MURDER absolutamente nossos storage arrays.
Então, leia suas notas de lançamento. Lições aprendidas, finalmente conseguimos consertar isso.
IO Throttle Bug: link
Bug do PFC: link