Mesclando vários backups de cópia de arquivo

0

Eu tenho uma série de backups (feitos manualmente) que contêm informações duplicadas, existe algum programa / script / comando para iterar através da estrutura de diretórios identificar arquivos duplicados via hashes MD5 e, em seguida, remover um dos arquivos?

As soluções Windows / Linux funcionarão.

    
por zhqiat 28.09.2015 / 09:59

1 resposta

1

Pessoalmente eu uso rdfind para isso. Como mencionado na página vinculada, existem muitas outras ferramentas para isso e eu tentei a maioria delas, mas o rdfind tem a otimização de escanear primeiro e último bytes de cada arquivo primeiro, e apenas calcular a soma MD5 se são idênticos, o que nos meus backups torna isso mais rápido do que qualquer outra coisa que eu tentei.

Para o uso que você solicita, você desejará executar

rdfind --deleteduplicates backup_a backup_b

No entanto, eu recomendo que você o execute com a opção -makehardlinks. Isso substituirá os arquivos duplicados por links físicos (supondo que você esteja armazenando os dados em um sistema de arquivos sãos) para que cada backup seja como agora, mas com dados duplicados armazenados apenas uma vez.

    
por 28.09.2015 / 10:31