Comprimir backups de snapshots com duplicatas

0

Eu tenho um conjunto de backups de fotos principalmente. O diretório parece mais ou menos assim:

backup/Day1/photos/1.jpg
               .../2.jpg
backup/Day2/photos/2.jpg
               .../3.jpg
               .../4.jpg
backup/DayN/photos/2.jpg
               .../3.jpg
               .../9.jpg

Arquivos com o mesmo nome são idênticos. Existem muitas duplicatas. Devido à maneira como o sistema de backup funciona, não é possível criar backup incremental diretamente. Eu sempre recebo todo o lixo todo dia.

Se eu quiser criar um arquivo compactado para um período, digamos o Dia 5 ~ 9, qual é o melhor algoritmo de ferramenta / compressão para fazer isso, o que faz a desduplicação bem? não contando com a compactação do próprio jpeg)

    
por Wei Shi 10.11.2012 / 23:03

2 respostas

0

ZPAQ é um arquivador pouco conhecido que faz deduplicação e, AFAIK, o único. Como o ZPAQ também faz o controle de versão, você pode manter cada backup em um único arquivo, reduzindo ainda mais o uso do espaço.

Você também pode usar um sistema de controle de versão, como o Git, que faz a desduplicação de arquivos automaticamente.

Ou, se você quiser algo mais complicado, pode mexer no Btrfs ou no ZFS, que são sistemas de arquivos com deduplicação integrada. A desduplicação do Btrfs não é tão boa quanto o ZFS.

    
por 10.11.2012 / 23:41
1

O WIM (Windows Imaging Format) é provavelmente o que você está procurando. Enquanto ZPAQ é nada menos do que uma ferramenta incrível (eu uso ele mesmo), ele bloqueia a desduplicação baseada, enquanto a desduplicação do WIM é baseada em arquivos (o MS chama de SIS - Single Instance Storage, veja Microsoft Deployment Toolkit Usando o MDT e o armazenamento de instância única .

Como a pergunta menciona que são os arquivos que são repetidos, pode-se argumentar que a desduplicação baseada em arquivos seria mais adequada - especialmente levando em conta que estamos falando de JPEGS.

Tanto o WIM quanto o ZPAQ:

Vantagens do WIM:

  • Amplamente adotado e suportado
  • Mais rápido
  • Resultados semelhantes a ZPAQ

Desvantagens do WIM

  • Desduplicação no nível do arquivo (inútil para arquivos (especialmente se grandes) com pequenas alterações).

Vantagens do ZPAQ:

  • Desduplicação em nível de bloco - incrível para dados repetidos em massa com pequenas alterações entre versões de arquivo, por exemplo, mas não apenas
  • Ferramenta incrível, única no que faz e como faz até onde eu sei

Desvantagens do ZPAQ:

  • um pouco mais lento (não tanto quanto eu imaginaria), quando a deduplicação estiver ativada e a compactação estiver configurada como max (5), portanto, apenas a vantagem marginal se a desduplicação no nível do arquivo for suficiente
  • Não amplamente adotado
  • Não há suporte para GUI (é importante para restaurações e navegação de arquivamento)
por 18.06.2017 / 15:10