Qual é o maior compressor de taxa de compressão para pdf, djvu e imagens?

0

Os comentários até agora não foram específicos com o tipo de arquivos que eles precisaram compactar e não chegaram a uma resposta definitiva

Eu tenho um disco rígido de 1 TB cheio de pdf, djvu principalmente e o resto são imagens e eu preciso comprimi-lo ao menor tamanho possível e não me importo com velocidade.

Eu experimentei o kgb e não aproveito totalmente a minha CPU.

Eu tentei tar.lzr, tar.lzma e tar.7z. tar.lzr foi o melhor, mas não ofereceu tanto quanto eu esperava.

Eu também notei o nanozip, mas vi muitas pessoas relatando problemas com ele, mesmo tendo a maior porcentagem nos benchmarks que vi, então alguém tem uma experiência anterior com ele?

    
por user3566929 29.08.2015 / 09:45

1 resposta

1

7z e lzma são o mesmo algoritmo de compressão, com um contêiner diferente. 7z com o modo de arquivo sólido ativado deve ser tão bom quanto tar.7z e fornecer acesso aleatório aleatório não tão ruim a um único arquivo. (Ainda é ruim, no entanto.)

O pdf usa o gzip internamente, o que o torna pouco compressível. O mesmo para a maioria dos formatos de imagem (embora a escolha do codificador de entropia varie; o codificador de entropia do IIRC JPEG é mais simples).

Em teoria, e eu não sei de nenhuma implementação dessa idéia, você poderia ter um arquivador que desfaz o simples gzip ou outra codificação de entropia de pdf, png, jpeg e vários outros formatos de arquivo já compactados. Em seguida, comprima esse fluxo com algo bom como o LZMA. Na extração, você extrairia dados do fluxo LZMA e refazia a compactação interna do pdf nas partes que precisavam. Sua saída seria o mesmo pdf / jpg / whatever, mas os arquivos potencialmente teriam checksums / hashes diferentes. (Por isso, seria sem perdas em relação aos pixels processados finais, mas não os bytes do arquivo.)

Os otimizadores PNG e jpeg implementam essa ideia em um único arquivo: refaz a compactação interna com o equivalente ao gzip -9 em vez do padrão.

Sua melhor aposta é tentar compactar uma amostra de 1GB ou mais com vários compressores e ver o que funciona bem. 1 GB deve ser representativo, porque é o tamanho que é razoável para um tamanho do dicionário .

    
por 29.08.2015 / 10:44