Finalmente encontramos o problema. Acabou sendo causado por um problema em nossa configuração de rede virtual. Por alguma razão que eu não consigo mais lembrar exatamente, o tráfego de rede para aquele download em particular estava dando um loop extra através das redes virtuais. Quando um usuário tentou fazer upload de um arquivo grande, o download estava vinculando todos os buffers de rede do kernel disponíveis. Isso estava fazendo com que toda a rede congelasse ... até que algo expirasse e tudo fosse desfeito.
Sinto muito que isso seja um pouco vago, mas pode oferecer algumas dicas para pessoas que enfrentam um problema semelhante.