Forward-sync para HDFS? (OU continuar um upload incompleto do hdfs?)

5

Alguém tem uma boa sugestão para fazer uma sincronização direta com o HDFS? ("forward-sync" em contraste com "sync bidirecional")

Basicamente eu tenho um grande número de arquivos que eu quero colocar no HDFS. É tão grande que, muitas vezes, eu perco a conectividade antes de terminar. O que eu gostaria de fazer é apenas fazer um "resumo" do meu upload de arquivo. No entanto, hadoop fs -put apenas fará o upload do diretório inteiro novamente (ou reclamará se ele existir).

Alguém tem uma boa maneira de continuar com um upload incompleto do hdfs?

    
por Nate Murray 14.09.2009 / 17:52

1 resposta

1

Se você estiver executando um Hadoop novo o suficiente, poderá montar hdfs usando o FUSE e apenas usar o rsync.

Também é possível criar um hdfs somente local e usar o distcp.

    
por 08.06.2011 / 01:40