Eu não tentei essa opção de armazenamento em particular, mas o cyberduck suporta s3, tem uma opção de sincronização e tem sido geralmente bastante robusto para mim .
Eu tenho cerca de 1 milhão de imagens (organizadas em diretórios) que preciso entrar no S3. Eu comecei a usar o s3sync.rb, mas como ele é feito para sincronização, ele cria toneladas de arquivos extras para acompanhar as coisas. Eu não preciso nem quero isso - só preciso fazer o upload uma vez.
Em seguida, tentei o s3cmd (a versão do python), que possui uma opção --recursiva para o put simples. O problema é que ele tenta processar todos os arquivos de upload na frente (pelo menos é isso que parece no modo de depuração), o que não funciona para o número de arquivos que eu tenho.
Estou pensando em tentar algo como o bucket explorer ou o s3fox, mas tenho medo de perder um monte de tempo e ficar apenas na metade do caminho.
Alguma recomendação, por favor?
Editar: Estou ciente de algumas das opções para montar o s3, mas não tive boas experiências com o s3fs. O jungledisk funcionaria bem com um grande número de arquivos? Além disso, esses programas tendem a criar arquivos extras que eu preferiria não ter.
Eu não tentei essa opção de armazenamento em particular, mas o cyberduck suporta s3, tem uma opção de sincronização e tem sido geralmente bastante robusto para mim .
Você poderia enviar a eles um dispositivo de armazenamento portátil com seus dados?
Você pode tentar executar s3sync.rb
com as opções --no-md5
. Com essa opção, apenas a data modificada é comparada.
Eu usei o Jungledisk para fazer backup de um grande número de arquivos (~ 20k) e ele teve um ótimo desempenho. Embora crie um banco de dados separado para manter os arquivos que foram carregados (e realizar a deduplicação). Pelo que tenho visto, o tamanho do banco de dados de backup é trivial comparado ao tamanho de todos os arquivos que foram armazenados em backup.
Não importa como você carrega coisas no S3, haverá "arquivos extras" porque o S3 não armazena diretórios, ele só suporta chaves e nós, então as informações do diretório devem ser salvas separadamente.