Como entender as informações de status do servidor Ubuntu

1

Estou tentando criar um script de shell simples para monitorar meu servidor. Eu pretendo configurar um trabalho CRON para executá-lo a cada cinco ou 10 minutos.

Veja como isso funcionará:

  1. Executar vários comandos do Linux, por exemplo iostat, mpstat, top, etc. e envia os resultados para um arquivo de texto
  2. Envie o arquivo de texto via CURL para um URL que receberá o arquivo de texto, processe os dados e publique métricas importantes em um banco de dados

Eu pretendo usar esses dados para determinar quando preciso atualizar meu servidor.

No entanto, eu não tenho muita experiência com o monitoramento de servidores, por isso não sei que tipo de limite eu deveria estar procurando. Por exemplo, quando eu executo algo como mpstat -P ALL , que tipo de figuras deveria me incomodar? Ou iostat ?

Eu só quero ser capaz de ter algum tipo de ponto de referência para saber quando meus servidores estão em bom estado, ou seja, carga razoável, ou em um estado ruim, ou seja, sobrecarregados e exigem atualização ou balanceamento de carga.

Obrigado antecipadamente.

    
por Obi Hill 20.09.2011 / 02:31

3 respostas

2

Eu diria que o Monit grátis seria uma ferramenta mais apropriada para testar os limites que você está procurando e dando uma resposta simples. visão geral da saúde do seu sistema.

Fora da caixa, você pode configurar algumas verificações básicas. A sintaxe é muito legível, portanto, uma configuração barebones que verifica a carga do sistema, o uso da memória, a utilização da troca, o uso da CPU e o espaço em disco para vários pontos de montagem e pode enviar um e-mail seria assim:

if loadavg (1min) > 6 then alert
if loadavg (5min) > 5 then alert
if memory usage > 90% then alert
if swap usage > 20% then alert
if cpu usage (user) > 90% then alert
if cpu usage (system) > 75% then alert
if cpu usage (wait) > 75% then alert

check device root with path /
    if SPACE usage > 80% then alert

check device var with path /var
    if SPACE usage > 80% then alert

check device usr with path /usr
    if SPACE usage > 80% then alert

check device tmp with path /tmp
    if SPACE usage > 80% then alert

Além disso, eu sei que você está dizendo que você não precisa de ferramentas gráficas, mas pode fazer sentido ter algo que possa acompanhar tendências . Munin é uma boa ferramenta para isso. Há muitos outros, mas vale a pena considerar.

    
por 20.09.2011 / 05:11
1

Obi Hill: Bem, você está reinventando a roda. Reunir todos os dados, analisá-los e analisá-los é um problema resolvido que você não deve reescrever ainda em outro momento.

O SNMP é uma maneira muito útil de coletar informações do sistema para processamento adicional (por exemplo, representar graficamente as tendências com MRTG ou passar os dados para Nagios ou programa de monitoramento semelhante).

Também programas como Cacti ou Munin podem fazer tudo isso por você.

    
por 20.09.2011 / 08:45
0

Quantos servidores você tem?

Talvez você deva dar uma olhada no Puppet, no RunDesk ou no ControlTier.

    
por 20.09.2011 / 05:00