Reduzir tamanho do arquivo pdf com ocr e tabelas

0

Eu tenho um arquivo digitalizado, onde o texto já foi reconhecido, mas pesa 80 mbytes. Durante o processo de escaneamento, fiz uma coisa boba, como escanear em escala de cinza. Agora o pdf tem um enxame enorme de traços e marcas de traço nele. Eu acredito que o tamanho vem do fato de que todas essas manchas.

Conversão simples com não parece ser a solução aqui

ps -dPDFSETTINGS=/screen    

Isso resulta em fontes irregulares e desagradáveis de serem lidas. Praticamente todas as outras questões sobre redução de tamanho são resolvidas por downsampling envolvendo uma ou outra conversão que prejudica o texto mais do que qualquer outra coisa.

Existe uma maneira de descartar essas informações básicas e preservar o texto real?

    
por Dimitry 08.04.2016 / 15:59

1 resposta

1

Se você gostaria de ter apenas o texto, sem muita formatação, você poderia tentar este comando:

less yourfile.pdf >> output.txt

Se o documento não tiver o "enxame de marcas de traços e traços" na digitalização original, normalmente tenho ótimos resultados com este site para reduzir o tamanho do PDF.

    
por jbrock 08.04.2016 / 16:39