Eu tenho uma situação em que encontrei uma tonelada de arquivos PDF digitalizados. Esses PDFs são efetivamente invólucros finos em um formato de imagem dispendioso. Cada arquivo tem vários MB de tamanho. O tamanho total do arquivo é superior a 1 TB. Eu sei que não foi feito nenhum trabalho de OCR ... os PDFs somente têm as imagens, sem camada de texto ou recurso de pesquisa.
Gostaria de reduzir o tamanho deste arquivo. Eu sei que se eu tivesse as imagens originais, elas seriam facilmente comprimidas de 3-6MB cada para algumas centenas de KB cada, sem perda perceptível de qualidade ... uma redução de 10 vezes no tamanho. O que eu não sei é como voltar desses PDFs para a imagem original, como recriar um arquivo PDF a partir da imagem reduzida (o usuário realmente gosta de PDF por algum motivo) e como fazer tudo isso em um modo razoavelmente automatizado. maneira.
Como uma ruga adicional, há alguns casos raros em que alguns PDFs mais recentes no arquivo vieram de uma forma separada e podem ter uma camada de texto pesquisável que não queremos perder.
Alguma idéia de como processar esses arquivos com eficiência?
Tags pdf