Ontem à noite, executei uma atualização do yum em alguns servidores RHEL, consegui obter uma lista dos pacotes, mas pelo menos um deles parece ter causado um grande problema.
A questão é que o SSH para ambos os servidores parece "cair" aleatoriamente. Não se desconecta, apenas congela. O log SSH no lado do servidor parece normal, mesmo com o conjunto DEBUG LogLevel. Às vezes, ele trava logo após a linha "Último login:" aparecer, outras vezes ele continuará por um tempo, mas, eventualmente, sempre trava (mesmo com atividade constante acontecendo). Inicialmente pensei que poderia ser MTU ou algo assim, mas nada mudou, e outros servidores rodando o CentOS em oposição ao RHEL, mas que não receberam uma atualização do yum ontem estão perfeitamente bem na mesma conexão VPN.
Meu problema é que eu não pareço ter uma maneira de corrigir isso, tentei reverter a transação do yum, mas o SSH congela durante o processo e faz com que pare de funcionar. O que é estranho é que, mesmo que consiga abrir a tela, e definir o yum em execução fazendo a reversão, a reversão será interrompida exatamente como o SSH congelou, mas ainda posso me soltar da tela. Isso faz com que o yum apareça como suspenso na lista de processos e eu tenho que matá-lo depois de forçar a sessão de tela a terminar. Qualquer sugestão seria apreciada.
EDIT: Ambos os servidores estão executando o RHEL 6.3
EDIT2: Algumas informações adicionais ... Parece que a conexão SSH ainda está ativa, porque ainda recebo mensagens do syslog e de uma conexão que achei que estava morta:
[root@www www]# ls -la
^C^C
Message from syslogd@www at Feb 16 20:18:21 ...
Message text
^C^C
Houve cerca de uma hora entre os meus dois primeiros Ctrl + Cs e a mensagem aparecendo, e então você pode ver o Ctrl + Cs depois de não fazer nada também. É meio que ... preso.
EDIT3: Eu tentei reverter para o Kernel anterior alterando o padrão do GRUB e o problema não foi resolvido.
EDIT4: Tenha mais informações. Depois de entrar no IPMI, tenho os mesmos problemas, por isso não está relacionado ao SSH, na verdade é outro problema. Felizmente, agora eu sou capaz de obter o rastreamento de pilha que é idêntico e trava no mesmo lugar em ambas as máquinas que são completamente separadas umas das outras (embora o hardware seja o mesmo).