Formas de desduplicar arquivos

9

Eu quero simplesmente fazer backup e arquivar os arquivos em várias máquinas. Infelizmente, os arquivos têm alguns arquivos grandes que são o mesmo arquivo, mas armazenados de maneira diferente em máquinas diferentes. Por exemplo, pode haver algumas centenas de fotos copiadas de um computador para outro como um backup ad-hoc. Agora que quero fazer um repositório comum de arquivos, não quero várias cópias da mesma foto.

Se eu copiar todos esses arquivos para um único diretório, existe uma ferramenta que pode passar por e reconhecer arquivos duplicados e me dar uma lista ou até mesmo excluir um dos duplicados?

    
por User1 13.05.2010 / 20:03

7 respostas

3

Crie um md5sum de cada arquivo, duplicatas md5sums sugerem (mas não garantem) arquivos duplicados.

    
por 13.05.2010 / 20:08
2

Você pode usar dupemerge para transformar os arquivos idênticos em links físicos. Vai levar muito muito tempo em um grande conjunto de arquivos. Os hashes SHA (ou MD5) dos arquivos quase certamente funcionarão mais rapidamente, mas você terá que fazer mais trabalho para encontrar as duplicatas. A probabilidade de colisão acidental é tão baixa que, na realidade, você pode ignorá-la. (Na verdade, muitos produtos de desduplicação já fazem isso.)

Sua melhor aposta para lidar com fotos e músicas é obter ferramentas personalizadas para encontrar duplicatas desses itens em particular. Especialmente porque você pode não ter arquivos que sejam idênticos em um nível binário depois que coisas como marcação ou recorte ou codificação de diferenças entrem em ação. Você vai querer ferramentas que possam encontrar fotos que "pareçam" iguais e músicas que "soem" iguais, mesmo que pequenos ajustes tenham sido feitos nos arquivos.

    
por 13.05.2010 / 21:22
1

Bem, se você tiver a capacidade, você pode configurar um sistema de arquivos com desduplicação e colocar seus backups nele. Isso não só desduplicará arquivos inteiros, mas também arquivos semelhantes. Por exemplo, se você tiver o mesmo JPEG em vários locais, mas com diferentes tags EXIF em cada versão, um sistema de arquivos com desduplicação armazenaria apenas os dados da imagem uma vez.

Sistemas de arquivos de desduplicação incluem o lessfs, o ZFS e o SDFS.

    
por 25.08.2010 / 04:17
0

Quando eu estava fazendo esse tipo de coisa, aprendi que é muito mais envolvente / eficiente em termos de tempo simplesmente passar os arquivos por conta própria em seu tempo livre, ao longo de algumas semanas. Você pode dizer a diferença entre as coisas muito melhor do que o seu computador.

Se você não concorda, sugiro EasyDuplicateFinder . Como mencionei acima, no entanto, demorará muito tempo, digamos, em cerca de um dia para 5 GB de arquivos.

E, em outra nota, o Crashplan faz o que você estava fazendo antes, mas de uma forma muito mais organizada e sem problemas de versão.

    
por 25.08.2010 / 05:24
0

Outra possibilidade, presumindo que as máquinas que você está fazendo backup suportará, é usar algo como rsync .

Se você rsync de A para B, então de C para B, então de D para B, etc, duplicatas exatas (isto é, por nome de arquivo) serão eliminadas (e sincronizadas entre máquinas que você está fazendo backup).

Se você não quer que todos sejam sincronizados entre si, este não é o melhor caminho a seguir.

    
por 25.08.2010 / 05:33
0

Para arquivos de imagem, use findimagedupes . Também é empacotado em debian .

    
por 28.01.2014 / 10:35
0

Links físicos só executam deduplicação se o arquivo inteiro for idêntico. Se cabeçalhos (EXIF, ID3,…) ou metadados (proprietário) diferirem, eles não serão vinculados.

Quando você tiver a chance de usar um sistema de arquivos com suporte à redução de redundância de bloco (ZFS, btrfs,…), use-o. Eu gosto muito do suporte à deduplicação offline (também conhecido como lote ) do btrfs, que suporta desduplicação em nível de extensão e não consome constantemente grandes quantidades de memória (como desduplicação on-line do ZFS ).

A desduplicação também tem a vantagem de que os arquivos podem ser modificados pelo usuário sem que a outra cópia perceba (o que pode não ser aplicável no seu caso, mas em outros).

Veja link para uma excelente discussão.

    
por 05.02.2017 / 20:38