Eu tenho um pesado pdf digitalizado com OCR. Consegui reduzir seu tamanho pela metade com ghostscript win64 , com este comando (como recomendado neste answer ):
gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf
Mas ainda não é leve o suficiente.
Eu também poderia converter o pdf com Caliber ou pdftotext do xpdf , mas estou perdendo o layout.
Existe uma maneira de extrair o OCR mantendo a posição exata de cada texto em cada página ao remover a imagem digitalizada?
Tags pdf conversion