Parece que você pode ter dois problemas
- No seu servidor de monitoramento, a gravação das métricas para vários servidores requer mais i / o aleatório do que o seu armazenamento pode fornecer. Mesmo que todas as suas métricas estejam sendo gravadas no disco, o servidor pode estar muito sobrecarregado para gerar gráficos a partir delas.
- Em seus clientes que estão sendo monitorados, os plug-ins que coletam as métricas são muito intensivos em CPU e memória e não concluem a coleta de dados no momento em que os clientes estão com carga pesada.
Eu usei Munin no passado, mas atualmente estou usando collectd . Os autores do collectd colocaram muita reflexão e esforço na solução desses problemas. Eles têm um sistema bem projetado para gravar os dados nos arquivos RRD , o que garante que você não perca dados e possa gerar gráficos atualizados. Também há suporte para RRDCacheD . O daemon e os plugins oficiais são escritos em C, então eles usam pouca memória ou tempo de CPU. Nos meus sistemas clientes, ele usa menos de 2MB de RAM e cerca de um quarto de segundo de tempo de CPU a cada minuto. No meu servidor de monitoramento está usando 20MB de RAM e dois terços de um segundo de tempo de CPU a cada minuto. Lembre-se de que todas as minhas métricas estão sendo reunidas e enviadas ao meu servidor de monitoramento a cada dez segundos, em vez de em intervalos de minutos como munin.