Envie muitos arquivos para o S3

0

Eu tenho cerca de 1 milhão de imagens (organizadas em diretórios) que preciso entrar no S3. Eu comecei a usar o s3sync.rb, mas como ele é feito para sincronização, ele cria toneladas de arquivos extras para acompanhar as coisas. Eu não preciso nem quero isso - só preciso fazer o upload uma vez.

Em seguida, tentei o s3cmd (a versão do python), que possui uma opção --recursiva para o put simples. O problema é que ele tenta processar todos os arquivos de upload na frente (pelo menos é isso que parece no modo de depuração), o que não funciona para o número de arquivos que eu tenho.

Estou pensando em tentar algo como o bucket explorer ou o s3fox, mas tenho medo de perder um monte de tempo e ficar apenas na metade do caminho.

Alguma recomendação, por favor?

Editar: Estou ciente de algumas das opções para montar o s3, mas não tive boas experiências com o s3fs. O jungledisk funcionaria bem com um grande número de arquivos? Além disso, esses programas tendem a criar arquivos extras que eu preferiria não ter.

    
por therealsix 20.01.2012 / 21:47

3 respostas

2

Eu não tentei essa opção de armazenamento em particular, mas o cyberduck suporta s3, tem uma opção de sincronização e tem sido geralmente bastante robusto para mim .

    
por 21.01.2012 / 01:45
1

Você poderia enviar a eles um dispositivo de armazenamento portátil com seus dados?

    
por 20.01.2012 / 22:30
1

Você pode tentar executar s3sync.rb com as opções --no-md5 . Com essa opção, apenas a data modificada é comparada.

Eu usei o Jungledisk para fazer backup de um grande número de arquivos (~ 20k) e ele teve um ótimo desempenho. Embora crie um banco de dados separado para manter os arquivos que foram carregados (e realizar a deduplicação). Pelo que tenho visto, o tamanho do banco de dados de backup é trivial comparado ao tamanho de todos os arquivos que foram armazenados em backup.

Não importa como você carrega coisas no S3, haverá "arquivos extras" porque o S3 não armazena diretórios, ele só suporta chaves e nós, então as informações do diretório devem ser salvas separadamente.

    
por 20.01.2012 / 22:36