O que causaria uma carga média de 10-30 (em vez de 10-30%) [duplicado]

1

Não tenho certeza se isso seria melhor intitulado "Por que o Nagios precisaria monitorar uma carga que chegasse aos 30".

Situação: Estou configurando o Nagios para nossa rede e atingi o estágio de configurar o NRPE nas caixas * nix. Eu já tinha (no papel) uma ideia aproximada de onde queria que as notificações fossem configuradas. Para um servidor específico, por exemplo, é assim: 1 minuto: avisar a 90%, crit a 100% 5 minutos: avisar a 80%, crit a 90% 15 minutos: avisar a 60%, crit a 70%

O servidor executa dois processadores virtuais, então eu planejo usar o parâmetro -r para obter um resultado por-CPU (sim, eu sei que isso não é realmente por CPU, é a carga para todos eles divididos pelo número deles e eu estou bem com isso).

então eu estava absolutamente pronto para configurar isso, quando vi os padrões no arquivo de configuração do NRPE:

command[check_load]=/usr/lib/nagios/plugins/check_load -w 15,10,5 -c 30,25,20

Isso me afastou. Comecei a me perguntar se realmente entendo as médias de carga. Vejo que o parâmetro -r não é usado e, portanto, as médias de carga acima de 1 são normais, mas isso sugere o padrão que existe para um sistema de 30 cpu? Eu vi esta questão para o qual a resposta sugere o uso de [número de cpu's] * 10 para a notificação crítica de 5 minutos (um minuto talvez?) que apóia ainda mais o uso de valores muito mais altos do que o planejado. Quero dizer, sem ver os padrões lá eu teria ido com

command[check_load]=/usr/lib/nagios/plugins/check_load -r -w 0.9,0.8,0.6 -c 1.0,0.9,0.7

mas agora estou em dúvida. Eu sei que ninguém da internet pode me dizer os valores corretos para usar para a nossa situação e eu não espero que ninguém, eu ficaria muito grato se alguém pode me dizer ou não eu grosseiramente entender mal carga e precisa começar o meu detetive trabalhe novamente em valores úteis. Para o que vale a pena, eu tenho esses valores apenas com base em ter executado top de vez em quando nos últimos 6 meses no servidor em questão. Geralmente, ele fica entre 0,4 por cpu (0,8) e 0,65 por cpu (1,1) por 1 minuto de média

    
por Chris O'Kelly 14.01.2013 / 07:33

1 resposta

0

Os números médios de carga bruta são apenas números, não uma porcentagem de qualquer valor absoluto. A média de carga e a utilização da CPU (que geralmente é expressa como uma porcentagem) não são a mesma coisa. Você deve monitorar ambos.

Uma descrição aproximada da média de carga (pelo menos no Linux) é "o número de processos que podem ser executados", é muito dependente do que seus sistemas fazem. A regra prática é que 1 unidade de carga por CPU está "ocupada", o que explica o parâmetro check_load -r. Alta E / S e processos de curta duração podem realmente atrapalhar isso. Você pode encontrar melhores descrições em outros lugares.

Para responder à sua pergunta: Uma carga de 30 pode ser causada por 30 processos ou segmentos prontos para executar suas CPUs sem interrupções / sondagens.

Bom trabalho para executar top e ter uma noção de sua carga, esses são os números com os quais você deve começar e ajustá-los ao longo do tempo para minimizar alertas falsos, embora sugira dobrar seus limites críticos.

IMHO os valores de amostra nrpe.cfg são muito altos para uma carga de trabalho típica do servidor. Meu palpite é que eles são suficientemente altos para não causar um fluxo constante de perguntas "NRPE informa minha média de carga é muito alta o tempo todo". Estranhamente, check_load tem padrões de 0,0,0 e 0,0,0.

    
por 14.01.2013 / 12:24