Nós rastreamos e corrigimos esse problema em nosso ambiente. A descrição que entendi está abaixo (por favor, desculpe possíveis imprecisões abaixo; é assim que eu (como desenvolvedor de software) entendo as descrições que me foram dadas pelo nosso administrador de rede (que também estava trabalhando com nossa empresa de hospedagem).
A causa foi eventualmente rastreada como um problema de configuração de rede envolvendo o Load Balancer. Nós esperávamos que o Load Balancer estivesse entre a internet e nossos servidores web, e que todos os nossos servidores estivessem se comunicando livremente uns com os outros. Infelizmente, a rede foi configurada de forma que todo o tráfego de rede (incluindo o tráfego entre os Servidores SQL e os Servidores Web) estivesse passando pelo Balanceador de Carga. O Load Balancer foi configurado para limitar a largura de banda que passa por ele e, quando o limite foi excedido, ele simplesmente descartou os pacotes. O limite geralmente era excedido quando grandes transferências de arquivos ocorriam entre os servidores (por exemplo, quando backups de bancos de dados eram copiados do servidor de banco de dados, etc.). Isso era difícil para nós, pois não tínhamos acesso ao Load Balancer (somente nosso provedor de hospedagem podia acessá-lo) e, até onde pudemos perceber, estávamos longe de saturar nossas interfaces de rede. Além disso, esses problemas eram extremamente esporádicos (da ordem de alguns minutos a cada 3-5 meses).
A correção foi reorganizar o ambiente para que o tráfego da rede interna não passasse pelo LB; Acredito que a rede foi reorganizada para se adequar a uma arquitetura de balanceamento de carga com um braço. Desde que fizemos essa alteração, não tivemos problemas de conectividade intermitente.