Processando arquivos de log preexistentes com o Flume

1

Eu tenho um grande conjunto de arquivos de log dos quais preciso extrair dados. É possível usar o Flume para ler esses arquivos e despejá-los em um HDFS (Cassandra ou outra fonte de dados) que eu possa consultar?

A documentação parece sugerir que é todo o processamento de registro baseado em eventos ao vivo. Eu estou querendo saber se estou faltando algum processo óbvio para apenas ter flume ler e processar arquivos de log estáticos de um diretório.

    
por duckus 23.08.2011 / 20:28

1 resposta

1

Sim, este é o caso de uso padrão para o canal.

O servidor com os arquivos de log executará um nó flume e outro (ou potencialmente o mesmo) servidor executará um mestre-flume. Os nós-flume irão descobrir o flume-master e a partir do flume-master você pode executar comandos como:

exec config my-config 'tail("/path/to/logfile")' 'collectorSink("hdfs://path/to/hdfs-folder", [options])'

Isso cria uma configuração que informa ao flume como acessar o arquivo (ele pode seguir ou ler o arquivo inteiro, outras opções estão disponíveis) e onde colocá-lo.

Então, é uma questão de apontar a configuração em um determinado servidor:

exec map (server-hostname) my-config

Há mais informações no guia do usuário do flume: link

    
por 17.10.2011 / 23:24