Como coletar os dados de desempenho de um servidor durante um período inacessível / inativo usando o Nagios?

1

Alguns serviços de hora e host param de responder devido a um desempenho ruim do servidor. Quero dizer, se por algum motivo (pode ser muito acesso a serviços de concorrência, uma execução de backup cara no servidor ou qualquer coisa que consuma muitos recursos do servidor) o desempenho do servidor é muito degradado, o que poderia levar o servidor a não conseguir estabelecer qualquer "comunicação de rede normal" (sem disparar quaisquer intervalos de tempo definidos para essa comunicação).

Conhecer os dados de desempenho do host (cpu, memória, ...) no caso de disponibilidade durante esse período (o host não está inativo e apesar de sua degradação de desempenho ainda permitir que plugins coletem dados de desempenho) pode ser muito útil para tentar determinar qual causa o problema, ou pelo menos, se o desempenho do host foi bom e não interferiu de forma alguma no host / serviço.

Este problema pode ser resolvido usando Remote Active (NRPE) ou remote passive (NSCA) se tais soluções remotas puderem armazenar dados perfurados (buffered) para serem enviados ao servidor Nagios central quando o desempenho do host ou a interrupção da rede permitirem. Eu li o documento de ambas as soluções e não consigo encontrar nenhuma referência a esse mecanismo de buffer nem o que aconteceu no caso de a NSCA não conseguir acessar o servidor Nagios.

Alguma ideia de como resolver esta falta de informação? tão útil para análise forense.

EDITAR:

Minhas perguntas são sobre quais ferramentas eu posso usar para depurar problemas de desempenho ou coletar dados de perf para análise, mas é como coletar (usando Nagios) hospedar dados de desempenho mesmo durante uma interrupção de rede para sua análise posterior (tipo de análise forense) . A ideia é integrar esses dados a gráficas do Nagios como o pnp4nagios e o NagiosGrapther. Sei que posso instalar ferramentas como o Cacti em cada host e ter uma redundância de coleta de dados de desempenho, mas realmente quero evitar isso e tentar resolver todos os requisitos de análise de desempenho com uma única ferramenta: Nagios

    
por gsi-frank 30.08.2013 / 14:54

1 resposta

2

Não tenho certeza sobre o Nagios, mas se você conseguir acessar o servidor, colete os detalhes abaixo, o que ajudará você a restringir o problema. Com a ajuda do comando abaixo, você pode identificar quem está consumindo mais CPU e memória. Ou o sistema está em condições OOM.

top -n 5 -b 
vmstat 1 50 
iostat -x 2 10
ps -aufx 
sar 1 50 
cat /proc/meminfo 
cat /proc/buddyinfo 
    
por 31.08.2013 / 06:56