Eu percebo que estou voltando a essa pergunta muito mais tarde do que quando ela foi postada, mas esqueci que postei essa pergunta e, quando a vi, queria compartilhar a solução com outras pessoas.
Descobri que o problema era minha solução de monitoramento de todas as coisas. Eu tinha uma configuração de verificação para o sistema verificar a página https do host a cada 5 minutos, o que, por algum motivo, faria com que o sistema respondesse a tudo, até o ponto em que os clientes vSphere não conseguiam mais se conectar.
Eu desabilitei este teste (confiando em pings) e este problema não retorna há quase um ano.
Eu estou supondo que há uma configuração de segurança em algum lugar sob o capô do ESXi 4.x que diz ao sistema para parar de responder após um número especificado de pedidos, mas eu não consegui localizar isso.
Quando o problema começava a ocorrer, as VMs ficavam atualizadas, mas você não podia se conectar a nada no nível do hipervisor até reinicializar completamente o sistema (mesmo a reinicialização dos serviços de gerenciamento não corrigia isso).
Eu tentei atualizar para as versões mais recentes do ESXi, mas isso não resolveu o problema.