Temos dois servidores Red Hat que "travam" em intervalos regulares. Os sistemas deixam de responder por 20 a 30 segundos e depois voltam ao "normal". Os sistemas não são virtualizados e são executados em seu próprio hardware dedicado.
Quando digo que o sistema não responde, sei disso porque um script é executado nos sistemas que - a cada 5 segundos - (1) imprime a hora atual, (2) executa um wget em direção a um site no sistema , (3) imprime novamente o horário final e (4) dorme por 5 segundos. Vemos no log que o "sleep por 5 segundos" às vezes leva de 20 a 30 segundos, e o nosso monitora Nagios confirma que o sistema não pode ser alcançado pelo mesmo período de tempo.
Basicamente, os sistemas são instalações limpas do Red Hat 6.5 executando o Tomcat6. Além disso, um compartilhamento NFS contra um armazenamento GlusterFS é montado. Há um pouco de atividade nessa unidade. Além disso, os aplicativos web Tomcat6 são um pouco intensivos em memória, exigindo entre 7 e 15 GB de RAM.
Estamos tentando descobrir o que está causando isso há algumas semanas, e chegamos ao ponto em que estamos sem ideias. As aplicações do Tomcat foram escrutinadas, tentamos todo tipo de opções nas montagens do NFS, experimentamos o SELinux e a lista continua. No entanto, o problema persiste.
Alguém tem alguma ideia sobre o que pode causar a suspensão de um sistema inteiro?