Estágio de sincronização lenta no gsutil rsync?

5

Acabei de começar a usar o GCS como backup para meus servidores da web. Um servidor tem 1.2 milhões de JPEGS (3.5TB) e tudo isso passou mais que 10 horas.

O outro tem 2,5 milhões de JPEGS (apenas miniaturas / previews - total de 300GB). A primeira vez que fiz isso, o "estado de sincronização do edifício" passou por todos os 2,5 milhões rapidamente. Alguns minutos. Minha sessão foi interrompida embora (wifi caiu) e quando eu SSHed para tentar executá-lo novamente o prompt "Na listagem de origem" rapidamente corta através de 10000, 20000, 30000. Em seguida, mói a quase parar. Meia hora depois, são apenas 300.000. Eu sei que tem que descobrir quais arquivos o destino tem também, mas eu não acho que isso deva desacelerar significativamente os ecos "Na listagem de fontes ..."?

Isso sugere um problema com meu sistema de arquivos e, em caso afirmativo, o que devo verificar?

Ou é o comportamento esperado, por algum motivo?

Está tentando usar o gsutil rsync com 2 milhões de arquivos para uma única má idéia? Eu não encontrei nenhuma diretriz do google sobre quantos arquivos podem ficar em um bucket, então estou assumindo que são bilhões / ilimitados?

FWIW os arquivos estão todos em subdiretórios aninhados, com não mais de 2000 arquivos em qualquer diretório.

Obrigado

edit: o comando exato que estou usando é:

gsutil -m rsync -r /var/www/ gs://mybucketname/var/www
    
por Codemonkey 23.10.2015 / 10:30

1 resposta

4

Eu descobri que mudar

output_chunk.writelines(unicode(''.join(current_chunk)))

para

output_chunk.write(unicode(''.join(current_chunk)))

em /gsutil/gslib/commands/rsync.py faz uma grande diferença. Obrigado a Mike da Equipe GS por sua ajuda - essa mudança simples já foi lançada no github:

link

    
por 03.11.2015 / 12:58