Reduzir tamanho do arquivo pdf com ocr e tabelas

Question

Reduzir tamanho do arquivo pdf com ocr e tabelas

#1 resposta do jbrock (1 votos)

0

Eu tenho um arquivo digitalizado, onde o texto já foi reconhecido, mas pesa 80 mbytes. Durante o processo de escaneamento, fiz uma coisa boba, como escanear em escala de cinza. Agora o pdf tem um enxame enorme de traços e marcas de traço nele. Eu acredito que o tamanho vem do fato de que todas essas manchas.

Conversão simples com não parece ser a solução aqui

ps -dPDFSETTINGS=/screen

Isso resulta em fontes irregulares e desagradáveis de serem lidas. Praticamente todas as outras questões sobre redução de tamanho são resolvidas por downsampling envolvendo uma ou outra conversão que prejudica o texto mais do que qualquer outra coisa.

Existe uma maneira de descartar essas informações básicas e preservar o texto real?

por Dimitry 08.04.2016 / 13:59

1 resposta

A instalação do Mysql falhou Às vezes, problemas gráficos (cintilação) após a retomada da suspensão (ThinPad X250, Kubuntu 15.10 Wily)

score 1 · Answer 1

Se você gostaria de ter apenas o texto, sem muita formatação, você poderia tentar este comando:

less yourfile.pdf >> output.txt

Se o documento não tiver o "enxame de marcas de traços e traços" na digitalização original, normalmente tenho ótimos resultados com este site para reduzir o tamanho do PDF.