Reduzindo o PDF pesado digitalizado (mantendo apenas o OCR e removendo a imagem digitalizada)

0

Eu tenho um pesado pdf digitalizado com OCR. Consegui reduzir seu tamanho pela metade com ghostscript win64 , com este comando (como recomendado neste answer ):

gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=output.pdf input.pdf

Mas ainda não é leve o suficiente.

Eu também poderia converter o pdf com Caliber ou pdftotext do xpdf , mas estou perdendo o layout.

Existe uma maneira de extrair o OCR mantendo a posição exata de cada texto em cada página ao remover a imagem digitalizada?

    
por Enora 23.09.2018 / 15:18

0 respostas