Melhor ferramenta para monitorar backups, etc. e tendências estatsticas a partir desses dados [closed]

9

Eu fiz algumas pesquisas sobre nagios, opennms e zenoss, mas não estou confiante de que encontrei o que estou procurando.

A principal força motriz para mim agora é poder monitorar os backups. Isso inclui mysql, mssql e, eventualmente, alguns backups do sistema de arquivos.

Temos uma ferramenta que envolve o processo de backup desses diferentes sistemas e coleta estatísticas. Então, itens como:

  • número de bancos de dados cujo backup foi feito
  • tamanho do arquivo de backup do banco de dados
  • tamanho do arquivo de backup do banco de dados compactado
  • tempo para fazer backup
  • tempo para o arquivo zip

Eu quero ser capaz de A) ter notificações se as tarefas não forem executadas de acordo com o cronograma B) ser capaz de definir limites nas estatísticas que acionariam as notificações C) Eu quero poder fazer a tendência e representar graficamente as estatísticas

Estou planejando enviar essas informações para o aplicativo de monitoramento por meio de um HTTP POST. Ou, o aplicativo de monitoramento também poderia extraí-lo de um arquivo de log.

No entanto, teremos outros processos com outras estáticas "arbitrárias" (do ponto de vista do sistema de monitoramento) que desejarão monitorar e evoluir, portanto a flexibilidade é muito importante.

A ferramenta ou ferramentas também devem ser capazes de fazer monitoramento geral e tendências de interfaces de rede, carga do servidor, etc. Assim que tivermos o monitoramento de backup, também queremos incluir esses itens.

Obrigado.

Acompanhamento :

Eu decidi tentar o seguinte na ordem indicada:

  • Zabbix: parecia mais um "balcão único" do que os outros e era fácil de instalar no Ubuntu Lucid RC
  • opsview
  • Nagios com nagvis, pnp4nagios, nagiosgraph
  • cactos com plug-in npc
  • Munin: um pouco marcada pela simplicidade, mas isso pode ser uma bênção a longo prazo

Vou postar de volta assim que tomar uma decisão, pode demorar um pouco até que isso aconteça.

    
por Randy Syring 23.04.2010 / 18:14

7 respostas

4

Em vez de criar sua própria solução de monitoramento, é altamente recomendável usar uma ferramenta existente para que todas as funcionalidades básicas de monitoramento e alerta já estejam implementadas. Se você escolher o Nagios, receberá gratuitamente o monitoramento básico dos recursos do servidor e da rede, e os seguintes plug-ins deverão fornecer a você o máximo do que você precisa:

check_file_ages_in_dirs lhe dirá se os arquivos de backup existem; aqui está uma postagem no blog que escrevi com alguns exemplos básicos .

check_file pode monitorar o tamanho e o conteúdo do arquivo (usando regexes), para que você possa gerar suas estatísticas de backup para um arquivo e monitorá-los.

A única coisa que você não obterá do Nagios é a tendência e a representação gráfica; Eu recomendo olhar Munin para isso, já que é simples de configurar e, como o Nagios, tem pilhas de plugins contribuídos.

    
por 23.04.2010 / 18:45
4

isso deve ser fácil de configurar com o zabbix.

definir limites personalizados (e muito poderosos) é fácil - você pode escrever qualquer expressão que desejar, então algo como "avisar se mais de 3 desses 5 servidores não tiverem um backup bem-sucedido" é possível. Você também pode usar seis diferentes níveis de gravidade e escalonamentos para obter notificações e alertas flexíveis.

O zabbix possui recursos de armazenamento e visualização de dados - todos os dados são armazenados em um banco de dados e, para representar graficamente uma única métrica, você não precisa de nenhuma configuração - basta obter um gráfico "gratuitamente". para armazenamento a longo prazo & tendências de médias de uma hora são calculadas.

como para obter seus dados sobre backups no zabbix, existem várias possibilidades. você pode lê-lo a partir de arquivos, você pode iniciar comandos personalizados, você pode empurrá-lo a partir da máquina monitorada usando o utilitário de linha de comando zabbix_sender ... e pode haver algumas abordagens mais possíveis.

a extensão é fácil - qualquer comando personalizado que retorne dados pode ser usado para coletar, armazenar e visualizar esses dados.

é claro, monitoramento geral de sistemas operacionais, aplicativos, dispositivos snmp e ipmi e assim por diante é possível.

    
por 30.04.2010 / 09:49
1

execução

os backups são orquestrados por backupninja . Eu uso apenas um wrapper para meus scripts bash - para ter um único log de backup. cada script começa com

 function handle {
         echo Error
         error problem occured
 }
 set -e
 trap handle ERR

então eu recebo o erro nos logs sempre que qualquer um dos comandos [por exemplo, mysqldump ou rsync] falha.

todos os backups acabam no repositório rdiff , por isso tenho n dias de incrementos.

todos os backups são transmitidos usando o rsync para o servidor de armazenamento central.

no servidor de armazenamento, todos os backups são verificados diariamente e, após a verificação bem-sucedida dos dados no disco local, eles são copiados para o drive USB externo.

verificação

backupninja.log em todos os servidores é monitorado por nagios. Eu verifico se eles contêm apenas mensagens DEBUG e INFO. qualquer outra coisa desencadeia alerta.

cada backup 'toca' em um arquivo de teste, cuja presença e atualização são monitoradas no servidor de repositório de backup central com nagios.

além disso, sql dumps mais críticos são verificados quanto ao seu tamanho [não apenas frescor] e completude [por exemplo, no final do mysql dumps eu espero timestamp em

-- Dump completed on 2010-04-22 23:21:02

todos os arquivos rdiff são verificados diariamente antes que os dados sejam sincronizados com a unidade USB e, novamente, depois que forem sincronizados. por isso, mesmo se a transferência noturna for interrompida, terei um repositório consistente apenas no disco USB. O resultado da verificação é registrado no arquivo cujo conteúdo e atualização são verificados pelo nagios.

Os discos usb são rotacionados semanalmente e são armazenados off-line, apenas por precaução. isso pode ser um exagero para grandes quantidades de dados, mas funciona bem para ~ 300GB de arquivos / lixinhos que estão mudando lentamente.

tendências

Eu uso um plug-in customizado munin para plotar o tamanho do diff / data para cada repositório rdiff.

o tempo que leva para executar pode ser verificado nos logs de backupninja, mas por enquanto eu não me preocupo com isso.

    
por 23.04.2010 / 20:20
1

nagios podem fazer tendências, mas você precisa produzir perfdata ( link ) no seu plugin. Se você usar o link do pnp4nagios, tudo será representado para você.

Descobri que usar o link do opsview é muito mais fácil do que configurar nagios e pnp4nagios. Especialmente se você é o único administrador experiente de linux no trabalho. Opsview é nagios com um ótimo webui que permite quase todas as ações do navegador web. Porque é nagios, você pode usar todos os plugins nagios que você tem usado no passado. Ótima ferramenta.

    
por 27.04.2010 / 21:26
0

Nagios para alertar e Cactos para gráficos mais alguns scripts shell ou perl farão exatamente o que você deseja. Com a combinação deles juntos, você pode fazer praticamente qualquer coisa, dependendo da quantidade de esforço que está disposto a colocar.

    
por 23.04.2010 / 18:59
0

Eu recomendo OpenNMS . O pacote é completamente open source, ativamente suportado e regularmente aprimorado. Para referência, eu encontrei em suas informações de configuração do wiki para monitorar o Symantec Backup Exec .

Do site deles ..

OpenNMS is the world's first enterprise grade network management platform developed under the open source model. It consists of a community supported open-source project as well as a commercial services, training, and support organization.

Divulgação: Eu não tenho interesse comercial aqui, mas o proprietário do The OpenNMS Group , os "serviços comerciais, treinamento e organização de apoio "mencionada acima é uma amiga minha.

    
por 13.05.2010 / 21:26
0

Isso pode ser feito facilmente com o Circonus ( link ). Nós rotineiramente importamos métricas como esta com o DTD XML de Resmon.

    
por 14.05.2010 / 02:22