arquivos Hadoop Rolling Small

Question

arquivos Hadoop Rolling Small

#1 resposta do (1 votos)
#2 resposta do (1 votos)
#3 resposta do (0 votos)

1

Estou executando o Hadoop em um projeto e preciso de uma sugestão.

Geralmente, por padrão, o Hadoop tem um "tamanho de bloco" de cerca de 64 mb. Há também uma sugestão para não usar muitos arquivos / pequenos ..

Atualmente, estou tendo arquivos muito muito pequenos sendo colocados no HDFS devido ao design do aplicativo do canal ..

O problema é que o Hadoop < = 0.20 não pode ser anexado aos arquivos, pelo que eu tenho muitos arquivos para reduzir meu mapa para funcionar de forma eficiente.

Deve haver uma maneira correta de simplesmente rolar / mesclar aproximadamente 100 arquivos em um. Portanto, o Hadoop está efetivamente lendo um arquivo grande em vez de 10

Alguma sugestão ??

hadoop linux apache-2.2 mapreduce

por Arenstar 16.11.2010 / 03:03

3 respostas

Tags hadoop linux apache-2.2 mapreduce

executando vbscript com psexec? A colagem em SSH falha a cada 512 caracteres

score 1 · Answer 1

Media6degrees surgiu com uma boa solução para combinar pequenos arquivos no Hadoop. Você pode usar o jarro para fora. link

score 1 · Answer 2

1

Você já pensou em usar o Hadoop Archives? Pense neles como arquivos tar para o HDFS. link

por 05.01.2011 / 13:07

score 0 · Answer 3

O que você precisa fazer é escrever um programa concatenador trivial com um mapeador de identidades e um ou apenas alguns redutores de identidade. Este programa permitirá que você concatene seus pequenos arquivos em alguns arquivos grandes para facilitar a carga no Hadoop.

Isso pode ser uma tarefa bastante para agendar e desperdiça espaço, mas é necessário devido ao design do HDFS. Se o HDFS fosse um sistema de arquivos de primeira classe, isso seria muito mais fácil de lidar.