Como posso rasterizar todo o texto em um PDF?

3

Você sabe quando você tem um pdf, que é uma digitalização de um documento e é realmente um arquivo enorme, porque ele apenas armazena a imagem do documento digitalizado?

E existem ferramentas de OCR que podem ajudá-lo a criar um documento adequado que apenas armazene o texto?

Bem, eu preciso do reverso disso! Vamos dizer que eu tenho um documento pdf perfeito gerado com pdflatex e eu preciso transformá-lo em um pdf tão "grande", que parece exatamente o mesmo quando impresso em papel (com um certo valor de dpi), mas é apenas uma imagem de o original.

Minha ideia inicial é transformar o pdf em uma série de JPGs e depois em PDF, mas talvez haja alguma maneira canônica para isso?

Caso você esteja se perguntando por que eu gostaria de fazer uma coisa dessas: atualmente estou preso a uma impressora de rede, que não é mantida por mim, e que aleatoriamente libera caracteres em arquivos impressos! Então, até que alguém descubra o que há de errado lá, eu quero isso como solução alternativa.

    
por Dimitri Schachmann 26.04.2015 / 16:09

1 resposta

0

Você pode testar se os PDFs baseados em imagem também estão poluídos. Primeiro converter PDF em TIFF (com várias páginas), por ex. com ghostscript :

gs -sDEVICE=tiffg4 -o sample.tif sample.pdf

Em seguida, converta o TIFF em PDF, por exemplo:

tiff2pdf -z -f -F -pA4 -o sample-img.pdf sample.tif

Esse resultado em um arquivo PDF em que as páginas são imagens em vez de texto.

Como alternativa, se o seu sistema suportar a impressão de arquivos TIFF, tente imprimi-lo diretamente.

Há também a opção de pdf2ps para converter PDF para PS, o que, se funcionar, provavelmente seria preferível.

    
por 27.04.2015 / 17:23