sim, wireshark de ambos os lados, tcpdump, rastreamentos de rede feitos no nível de comutador (switches Arista 10G high-end), rastreamentos feitos no firewall (Fortinet), etc. etc.
O problema não é porque o cliente não está recebendo a resposta. Essa é uma rede ocupada com tráfego em rajadas, portanto perder um pacote em 10.000 não é inesperado. Mas eu preciso fornecer um SLA mesmo quando eu perder um pacote, e este atraso de 200 ms está jogando fora.
Quero dizer, experimentando em DEV eu posso 'consertar' o problema definindo o TCP RTO para a sub-rede do cliente para 5ms via um comando de rota [lado do servidor]. Com isso, 99,999% dos meus pedidos são respondidos em menos de 10 ms e eu encontraria meu SLA. Tudo bem, mas quais são as desvantagens de fazer isso em produção? O RTO é o problema real, ou estou consertando por acidente? Essa é a melhor solução possível para o problema, ou há algo mais inteligente / melhor (perfil sintonizado? Parâmetro sysctl? Oração para os deuses minix?)?
ri-obrigado