Mesclando vários backups de cópia de arquivo

Question

Mesclando vários backups de cópia de arquivo

#1 resposta do (1 votos)

0

Eu tenho uma série de backups (feitos manualmente) que contêm informações duplicadas, existe algum programa / script / comando para iterar através da estrutura de diretórios identificar arquivos duplicados via hashes MD5 e, em seguida, remover um dos arquivos?

As soluções Windows / Linux funcionarão.

backup filesystems

por zhqiat 28.09.2015 / 07:59

1 resposta

Tags backup filesystems

Extraindo linhas de um arquivo de texto grande que segue um padrão Resultados conflitantes de encaminhamento de porta

score 1 · Accepted Answer

Pessoalmente eu uso rdfind para isso. Como mencionado na página vinculada, existem muitas outras ferramentas para isso e eu tentei a maioria delas, mas o rdfind tem a otimização de escanear primeiro e último bytes de cada arquivo primeiro, e apenas calcular a soma MD5 se são idênticos, o que nos meus backups torna isso mais rápido do que qualquer outra coisa que eu tentei.

Para o uso que você solicita, você desejará executar

rdfind --deleteduplicates backup_a backup_b

No entanto, eu recomendo que você o execute com a opção -makehardlinks. Isso substituirá os arquivos duplicados por links físicos (supondo que você esteja armazenando os dados em um sistema de arquivos sãos) para que cada backup seja como agora, mas com dados duplicados armazenados apenas uma vez.