Encontramos um problema em que podemos restringir a causa raiz e esperar que o coletivo aqui possa fornecer informações.
Temos uma instância do AWS EC2, c4.8xlarge, que está descartando retransmissões tcp que causam a quebra do aplicativo. Alguém viu algo assim acontecer?
Não podemos restringir o que está causando isso.
Temos um sistema em um aplicativo de site remoto enviando dados para a instância do EC2, que é retornado pela instância do EC2. Durante o curso das trocas de dados, um pacote é perdido em trânsito. TCP por natureza, em seguida, tenta recuperar.
A instância do EC2 envia uma Retransmissão Rápida, mas essa retransmissão nunca sai do nic virtual da instância do EC2.
Conseguimos que a AWS execute uma captura de pacotes diretamente da NIC da instância do EC2 e eles não a veem atingindo o fio. Uma captura de pacotes na instância do EC2 mostra a retransmissão, mas, novamente, isso nunca chega ao nic virtual.
A instância do EC2 tenta, então, mais 5 retransmissões que também não saem, terminando com a instância do EC2 emitindo uma redefinição do TCP.
Ping / mtr parece normal. Podemos reproduzir prontamente ao executar esses trabalhos, que acabarão aumentando devido a retransmissões perdidas.
Qualquer ideia seria útil, por favor!
Editar: Tentamos duplicar o problema simulando o tráfego (download / upload http, transferência scp), mas parece que só conseguimos duplicar com o aplicativo original.
Atualização final: não conseguimos determinar a causa raiz. A equipe recriou os servidores usando uma nova AMI e, no momento, tudo está funcionando para as novas instâncias do EC2.