Por definição, os processos executados como UID 0 não são restringidos por restrições no sistema de arquivos ou no sistema (a maioria dos limites em / etc / limits são tomados como sugestões, podem ser ativados por parms do kernel). Eu sugeriria rastrear a quantidade de memória e CPU que este processo está consumindo ao longo do tempo, bem como rastrear a saturação de IO do disco e da rede ao longo do tempo.
Eu estaria disposto a apostar que o processo tem um vazamento de memória e está devagar o sistema (e não está sendo restringido por ulimits), eventualmente fazendo com que outros processos sejam disparados pelo OOM killer (incluindo SSHD, Apache). , etc), ou que ele tenha um vazamento de identificador, o que eventualmente está privando outros processos de seu acesso a identificadores de arquivo a serem usados para coisas como sessões TTY ou acesso a arquivos de configuração.
Você pode configurar net-snmp para expor IO de rede, memória e utilização de CPU e rastreá-lo ao longo do tempo usando algo como MRTG (executando dentro de outra caixa, é claro) para ver como isso está tendendo ao longo do tempo. Como pode levar semanas para o problema se manifestar, a granularidade padrão do MRTG (uma pesquisa a cada 5 minutos) deve ser suficiente para iluminar as tendências.