Como @sam disse, tudo depende do que o servidor está fazendo e de quão pesado é o hardware do servidor. A execução de apenas um punhado de processos intensivos de CPU, memória e / ou CPU extremamente pesados pode facilmente sobrecarregar até mesmo um servidor poderoso. Especialmente se algo fizer com que o seu servidor troque, tudo estará avançando mais devagar que um caracol ou uma tartaruga.
Por outro lado, algo como o servidor Postfix pode facilmente ter o processo contado em centenas ou milhares, já que tudo o que o Postfix faz é muito leve.
Na minha opinião, monitorar (ou pelo menos alertar por causa disso) a contagem global de processos não é útil. No entanto, se você tiver certeza de que não deve haver mais de X instâncias de algum processo, monitore isso e crie um alerta em caso de haver mais de X partes delas em torno.
Você também pode representar graficamente a quantidade de alguns processos para tendências: por exemplo, tenho a tendência de representar graficamente a contagem de processos do Cyrus IMAP / POP para que eu possa ver se eles estão próximos dos limites atuais.
Se você tem alguns comportamentos de processo previsíveis, você pode usar algo como psmon para reiniciar / matar automaticamente (com registro opcional / e-mail para informações sobre eventos que manipularam processos mal comportados. Claro, o Zabbix pode ser usado para isso também, mas o psmon é muito fácil de configurar para esse tipo de tarefa.
O que eu graficaria e monitoraria
Em geral, graph (e monitore) pelo menos o seguinte:
- média de carregamento
- uso de memória
- uso de disco
- uso da CPU
- quantidade de tráfego de rede
- quantidade de alguns processos individuais, se você precisar
- tempos de resposta para seus serviços
- uptime do servidor (pode ser um gráfico muito útil; se algum servidor começar a se comportar mal e precisar ser reinicializado com frequência, é fácil identificar os gráficos no momento em que os problemas começaram)
Em seguida, monitore pelo menos o seguinte:
- são os processos que devem estar respondendo corretamente; na minha opinião, apenas testando se a porta está ativa ou se o processo está presente, se não for suficiente. Em vez disso, se você quiser verificar se o servidor da Web está em execução, veja se ele retorna HTTP 200 OK e, de preferência, veja se a página de teste contém algumas strings esperadas.
- ping do servidor. Se o ping falhar, avise imediatamente.
- logs do kernel para coisas graves, como erros de E / S, caminhos com falha na configuração do multipath do ambiente SAN, panes do kernel, eventos do OOM e assim por diante
Espero que isso ajude você. :)