7z e lzma são o mesmo algoritmo de compressão, com um contêiner diferente. 7z
com o modo de arquivo sólido ativado deve ser tão bom quanto tar.7z
e fornecer acesso aleatório aleatório não tão ruim a um único arquivo. (Ainda é ruim, no entanto.)
O pdf usa o gzip internamente, o que o torna pouco compressível. O mesmo para a maioria dos formatos de imagem (embora a escolha do codificador de entropia varie; o codificador de entropia do IIRC JPEG é mais simples).
Em teoria, e eu não sei de nenhuma implementação dessa idéia, você poderia ter um arquivador que desfaz o simples gzip ou outra codificação de entropia de pdf, png, jpeg e vários outros formatos de arquivo já compactados. Em seguida, comprima esse fluxo com algo bom como o LZMA. Na extração, você extrairia dados do fluxo LZMA e refazia a compactação interna do pdf nas partes que precisavam. Sua saída seria o mesmo pdf / jpg / whatever, mas os arquivos potencialmente teriam checksums / hashes diferentes. (Por isso, seria sem perdas em relação aos pixels processados finais, mas não os bytes do arquivo.)
Os otimizadores PNG e jpeg implementam essa ideia em um único arquivo: refaz a compactação interna com o equivalente ao gzip -9 em vez do padrão.
Sua melhor aposta é tentar compactar uma amostra de 1GB ou mais com vários compressores e ver o que funciona bem. 1 GB deve ser representativo, porque é o tamanho que é razoável para um tamanho do dicionário .