Se você estiver executando um Hadoop novo o suficiente, poderá montar hdfs usando o FUSE e apenas usar o rsync.
Também é possível criar um hdfs somente local e usar o distcp.
Alguém tem uma boa sugestão para fazer uma sincronização direta com o HDFS? ("forward-sync" em contraste com "sync bidirecional")
Basicamente eu tenho um grande número de arquivos que eu quero colocar no HDFS. É tão grande que, muitas vezes, eu perco a conectividade antes de terminar. O que eu gostaria de fazer é apenas fazer um "resumo" do meu upload de arquivo. No entanto, hadoop fs -put
apenas fará o upload do diretório inteiro novamente (ou reclamará se ele existir).
Alguém tem uma boa maneira de continuar com um upload incompleto do hdfs?
Se você estiver executando um Hadoop novo o suficiente, poderá montar hdfs usando o FUSE e apenas usar o rsync.
Também é possível criar um hdfs somente local e usar o distcp.
Tags rsync hadoop synchronization hdfs