Também parece haver um bug em kswapd
em algum lugar, esperançosamente, somente em kernels mais antigos.
Quase todos os dias, o kswapd é atacado aleatoriamente em algumas máquinas em um cluster maior (com um kernel não-atual, no entanto). 100% de CPU em ambos os processos do kswapd. Nenhum outro processo em execução (exceto shell ssh), muita RAM livre (mais de 700 MB) e nenhum SWAP usado em tudo. Sem troca, sem troca também.
Nada explica ainda, porque uma máquina em particular é atingida e outra não. Parece não ser completamente aleatório, porque geralmente atinge mais de uma máquina dentro de um curto período de tempo. Parece que máquinas, que estão ociosas, assim como máquinas que estão sob alta pressão, são menos (!) Provavelmente atingidas pelo efeito. Por isso, tem que fazer alguma coisa com a carga de trabalho e só bate se a máquina não estiver ociosa nem muito ocupada.
Se o problema ocorrer, nada mais ajuda. Matando todos os processos (que não se tornaram impossíveis de matar), desmontando todos os sistemas de arquivos, nada. kswapd
ainda permanece em 100% da CPU. Eu suspeito de alguma corrida spinlock em kernels SMP, mas também é provável que eu esteja errado.
Talvez veja minha resposta serverfault.com/questions/316995/#493257
Notas:
- A reinicialização de máquinas afetadas geralmente falha porque o processo de desligamento começa a ficar em algum lugar.
- Não há conexão direta com a Internet. Causas estrangeiras são improváveis.
- Parece depender do tipo de carga de trabalho que as máquinas processam do ponto de vista da carga, porque temos máquinas que nunca foram afetadas (ainda).
- Desculpe, não posso ser mais específico sobre o que fazemos e por quê.
- Sim, estou especulando. Porque é um efeito extremamente intrigante, hoje.