Após 3 dias de solução ininterrupta, acabei descobrindo que o problema é ... aguarde ... nossa Cisco ASA se engana e transborda a rede com tráfego falso.
Como estávamos executando uma troca bastante básica e o ambiente do servidor é 100% virtualizado, não notamos nada dentro da pilha de rede.
O maior arenque vermelho que sofri aqui foi pingar o sistema operacional convidado do host. Eu teria pensado que isso era totalmente autônomo contra os NICs físicos, mas aparentemente não.
Eu acabei encontrando o problema espelhando a porta de gerenciamento no switch e observando o tráfego para / a partir dele com o Wireshark, e vendo o tráfego saindo da porta de origem, mas nunca, nunca, chegando ao destino. Como não consegui enxergá-lo dentro da própria rede, levei apenas mais 4 horas para isolar o ASA como fonte do problema.
Desde a remoção do ASA da rede, tudo foi tranquilo.
Acontece que o ASA não tinha se enganado, alguém tinha criado uma regra NAT desconfigurada que não tinha no-proxy-arp
, então ele começou a responder a solicitações ARP em todo o / 24 interno. Excluindo essa regra e servindo uma bota firme na pessoa que a adicionou e agora temos o que, por que e quem.
Isso também explica por que a rede somente host não estava funcionando como esperado. O ASA estava respondendo à solicitação ARP, de modo que o host não sabia que era uma solicitação de rede somente de host.