As métricas usuais que indicam problemas incluem utilização de CPU, utilização de memória, média de carga e utilização de disco. Para servidores de email, o tamanho da fila de mensagens é um indicador importante. Para servidores da web, o número de servidores ocupados é uma medida importante. A taxa de transferência excessiva da rede também leva a problemas. Se você tem processos que precisam verificar os horários, o NTP pode ser uma ferramenta importante para manter os relógios sincronizados.
Os níveis de aviso padrão que usei incluem (aviso, crítico). Você pode querer ajustar seus valores com base em vários fatores. Valores mais altos reduzem o número de alertas, enquanto valores mais baixos oferecem mais tempo para reagir ao desenvolvimento de problemas. Este pode ser um ponto de partida adequado para um modelo.
- Utilização contínua da CPU (80%, 100%). Exclua o tempo para processos com precisão.
- Carga média por CPU (2, 5).
- Utilização de disco por partição (80%, 90%).
- Fila de mensagens (10, 50). Use valores mais baixos em servidores de email não.
- Servidores da Web ocupados (10, 25).
- Rendimento da rede (80%, 100%). Backups de rede e outros processos podem exceder valores. Eu usaria as configurações de limitação se elas estiverem disponíveis.
- Deslocamento de NTP em segundos (0,2, 1).
Munin faz um bom trabalho reunindo essas estatísticas e outras. Ele também tem a capacidade de acionar alarmes quando os limites são passados. Suas capacidades de aviso não são tão boas quanto as do Nagios. Sua coleta e exibição de dados históricos torna uma boa opção poder analisar se os valores atuais diferem significativamente dos valores anteriores. É fácil de configurar e pode ser executado sem gerar avisos. O principal problema é o volume de dados capturados e sua frequência fixa de coleta de informações. Você pode querer gerar gráficos sob demanda. Munin fornece muitas das estatísticas que eu verificaria usando sar
quando um sistema estava com problemas. Sua visão geral é útil para identificar possíveis problemas.