Caveat: Eu também não sou um servidor / pessoa sysadmin mas tive que mergulhar no início deste ano.
Encontrei problemas de desempenho como este ao executar processos node.js. É possível que haja paralelos com o que você está vendo. No meu caso, com base nas alterações que experimentei, parece que elas estavam relacionadas a atingir limites máximos de páginas.
Estas são as alterações de configuração que realizei que ajudaram a resolver problemas:
Em /etc/security/limits.d/custom.conf
root soft nofile 1000000
root hard nofile 1000000
* soft nofile 1000000
* hard nofile 1000000
No /etc/sysctl.d/99-sysctl.conf
fs.file-max = 1000000
fs.nr_open = 1000000
net.nf_conntrack_max = 1048576
Para atualizar processos em execução:
sudo sysctl -w fs.file-max=1000000
sudo sysctl -w fs.nr_open=1000000
sudo sysctl -w net.nf_conntrack_max=1048576
Como root:
ulimit -n 1000000
A milhagem pode variar com base no que está gerenciando seus processos.
Aqui estão algumas documentações com mais ajustes sysctl, alguns dos quais eu planejo pesquisar e implementar: link