Existe um programa de compactação ou compactação para o Windows que também faz deduplicação? [fechadas]

11

Estou procurando um programa de arquivamento que possa executar a deduplicação (dedupe) nos arquivos que estão sendo arquivados. Ao desembalar o arquivo, o software colocaria de volta todos os arquivos removidos durante o processo de compactação.

Até agora eu encontrei:

Alguém ciente de algum outro?

Isso provavelmente seria uma adição incrível ao 7-zip.

    
por Larry Silverman 20.05.2011 / 22:37

4 respostas

12
Quase todos os arquivadores modernos fazem exatamente isso, a única diferença é que eles se referem a isso como um arquivo "sólido", já que todos os arquivos são concatenados em um único fluxo antes de serem alimentados no algoritmo de compressão. Isso é diferente da compactação zip padrão, que compacta cada arquivo um por um e adiciona cada arquivo compactado ao arquivo morto.

O 7-zip, por sua própria natureza, realiza efetivamente a desduplicação. O 7-Zip, por exemplo, irá procurar por arquivos, irá ordená-los por tipos de arquivos e nomes de arquivos similares e assim dois arquivos do mesmo tipo e dados serão colocados lado a lado no fluxo indo para os algoritmos do compressor. O compressor verá muitos dados que viu recentemente, e esses dois arquivos terão um grande aumento na eficiência de compactação em comparação com a compactação dos arquivos um a um.

O Linux tem visto um comportamento similar por um longo tempo através da prevalência de seu formato ".tgz" (ou ".tar.gz" para usar seu formato completo), já que o tar é simplesmente mesclar todos os arquivos em um único fluxo (embora sem classificar e agrupar arquivos) e depois compactar com gzip. O que esta falta é a ordenação que o 7-zip está fazendo, o que pode diminuir um pouco a eficiência, mas ainda é muito melhor do que simplesmente agrupar vários arquivos compactados individualmente da mesma forma que o zip.

    
por 20.05.2011 / 23:04
4

Não faz sentido usar a deduplicação com um processo de compactação. A maioria dos algoritmos de compactação cria o que é chamado de 'dicionário' que procura os bits de dados mais comuns ou reutilizados. a partir daí, apenas fará referência à entrada do dicionário, em vez de escrever toda a "palavra" novamente. Dessa forma, a maioria dos processos de compactação já recortam dados redundantes ou duplicados de todos os arquivos.

Por exemplo, se você pegar um arquivo de 1 MB e copiá-lo 100 vezes com um nome diferente a cada vez (totalizando 100 MB de espaço em disco), compactá-lo em um arquivo zip ou 7zip, você terá um total de 1 MB arquivo zip. Isso ocorre porque todos os seus dados foram colocados em uma entrada de dicionário e referenciados 100 vezes, o que ocupa muito pouco espaço.

Esta é uma explicação muito simples do que acontece, mas o ponto ainda é bem transmitido.

    
por 20.05.2011 / 22:52
4

7-Zip, zip, gzip e todos os outros arquivadores não detectam áreas idênticas distantes umas das outras, como apenas alguns megabytes ou mais, dentro do mesmo arquivo ou colocados em posições diferentes dentro de arquivos diferentes.

Portanto, não, os arquivadores normais não executam tão bem quanto o exdupe e outros, em algumas situações. Você pode ver isso se você compactar algumas máquinas virtuais ou outras coisas.

    
por 21.05.2011 / 01:20
-1

Não estou ciente de um programa de deduplicação que possa realizar deduplicação (dedupe) nos arquivos que estão sendo arquivados.

Eu sei que o WinPure é o melhor software de desduplicação que ajuda a desdobrar os dados de maneira fácil e eu acho que pode ser uma ótima solução para seu problema de deduplicação.

    
por 09.04.2014 / 12:03