Depois de muita investigação e pesquisas no Google, consegui encontrar a causa raiz e, finalmente, uma correção. Depois de excluir problemas de rede e DNS, só fiquei com o protocolo. Como o Ping funcionava e o telnet para a porta 1 não, eu sabia que não poderia ser um problema de porta. Depois de testar o tráfego com UDP e TCP, descobriu-se que o TCP era o único protocolo que estava tendo o problema.
Corri tcpdump
para verificar os pacotes que estavam sendo trocados e notei imediatamente que apenas o pacote SYN inicial estava sendo enviado do cliente para o servidor e o ACK não estava sendo retornado. Infelizmente, ainda não foi encontrada nenhuma causa raiz.
Ao executar netstat -s
antes e depois de tentar várias conexões ssh em algumas tentativas, o único valor que estava desativado foi a "Conexão passiva rejeitada por causa do registro de data e hora". Eu encontrei este artigo (em japonês) que estava relacionado a esse problema e sugeriu uma relação com o tcp_tw_recycle em um ambiente NAT. A conclusão resultante foi desabilitar tcp_tw_recycle, a conseqüência é que o número de conexões TCP abertas dobrou, nós conseguimos resolver o problema. Esta resposta do ServerFault discute são ramificações em detalhes.
Espero que esta resposta seja útil para alguém que acabe lidando com esse caso extremo. Além disso, alguém tem alguma sugestão / aviso adicional relacionado a esta solução?