Apesar de ser uma postagem antiga, respondendo agora porque eu sabia que valores de limite de check_load são dor de cabeça para os novatos.;)
Um alerta de aviso, se a CPU for 70% por 5min, 60% por 10mins, 50% por 15mins.
Um alerta crítico, se a CPU for 90% por 5min, 80% por 10min, 70% por 15min.
*command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7*
Todas as minhas descobertas sobre a carga da CPU:
O que significa "o carregamento":
Wikipédia diz:
Todos os sistemas Unix e Unix-like geram uma métrica de três números "load average" no kernel. Os usuários podem consultar facilmente o resultado atual de um shell Unix executando o comando uptime:
$ uptime
14:34:03 up 10:43, 4 users, load average: 0.06, 0.11, 0.09
A partir da média de carga de saída acima: 0.06, 0.11, 0.09
significa (em um sistema com uma única CPU):
- durante o último minuto, a CPU foi underloaded por 6%
- durante os últimos 5 minutos, a CPU foi underloaded 11%
- durante os últimos 15 minutos, a CPU foi underloaded 9%
.
$ uptime
14:34:03 up 10:43, 4 users, load average: 1.73, 0.50, 7.98
A média de carregamento acima de 1.73 0.50 7.98
em um sistema de CPU única como:
- durante o último minuto, a CPU ficou sobrecarregada em 73% (1 CPU com 1,73 processos executáveis, de forma que 0,73 processos tiveram que esperar por um turno)
- durante os últimos 5 minutos, a CPU foi subcarregada em 50% (nenhum processo teve que esperar por um turno)
- durante os últimos 15 minutos, a CPU estava sobrecarregada 698% (1 CPU com 7,98 processos executáveis, de modo que 6,98 processos tiveram que esperar por um turno)
Cálculo do valor limite do Nagios:
Para a configuração da carga da CPU do Nagios, que inclui aviso e crítica:
y = c * p / 100
Onde:
%código%
%código%
y = nagios value
para um sistema de quatro núcleos:
time 5 min 10 min 15 min
warning: 90% 70% 50%
critical: 100% 80% 60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
Para um único sistema principal:
c = number of cores
Onde:
%código%
p = wanted load procent
time 5 min 10 min 15 min
warning: 70% 60% 50%
critical: 90% 80% 70%
command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7
Um ótimo white paper sobre a análise de carga de CPU pelo Dr. Gunther link
Neste artigo on-line, o Dr. Gunther acessa o kernel do UNIX para descobrir como
calculadas as médias (os “TRQ Triplets”) e como são apropriadas como capacidade
métricas de planejamento.