Suspeito que você esteja vendo um artefato produto com atraso na largura de banda (BDP). Um "tubo longo e gordo" (alta largura de banda, alta latência) limita a quantidade de dados que o TCP pode colocar "em voo" a qualquer momento. Sua observação de que as transferências paralelas são mais rápidas é um grande indicador do BDP entrando em cena.
Qual é a aparência da sua latência de ida e volta para o S3?
Você pode tentar ativar o Provedor de Congestionamento de TCP Composto (CTCP) por meio do netsh interface tcp set global congestionprovider=ctcp
comando. Esse provedor de congestionamento deve "agressivamente" definir a janela de envio para colocar mais dados "em trânsito" em redes de alta latência e alta largura de banda.
Do artigo da Microsoft Research:
For TCP connections with a large TCP Receive Window size and a large bandwidth-delay product (the bandwidth multiplied by the latency of the connection), Compound TCP (CTCP) in the Next-Generation TCP/IP stack aggressively increases the amount of data sent at one time ... In testing performed internally at Microsoft, large file backup times were reduced by almost half for a 1 Gigabit-per-second connection with a 50-millisecond round-trip time. Connections with a larger bandwidth-delay product can have even better performance.