Adicionando informações de OCR a um PDF

23

Eu tenho uma boa qualidade de digitalização de um documento; tal digitalização está em formato pdf.

Como posso adicionar informações de ocr ao pdf, para que elas se tornem pesquisáveis? Por pesquisável quero dizer que o objetivo é que, ao visualizar o pdf com evince, CTRL-F, na verdade, permite-me pesquisar no conteúdo pdf.

    
por fdierre 07.06.2012 / 10:56

5 respostas

14

pdfsandwich

Faz o que você quer e fornece pacotes deb do Ubuntu. Ele usa o tesseract como mecanismo de OCR. A seguinte chamada adiciona a camada de texto ao seu PDF digitalizado:

pdfsandwich scanned.pdf

A seguir faz o mesmo, mas com outro idioma (código ISO 639-2, faça o download do pacote tesseract-ocr-LANGCODE ) e define o layout:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Se você receber algum erro, por favor, faça o download da última versão do deb do Sourceforge .

Aviso: Eu sou o desenvolvedor do pdfsandwich e, portanto, obviamente tendencioso.

    
por Tobias Elze 25.07.2014 / 15:27
7

Existem dois projetos que fazem o truque: GScan2PDF e OCRFeeder

    
por Aldi 07.06.2012 / 23:24
3

Encontrei uma solução não ideal, mas muito eficaz.

Eu uso o PDF X-Change Viewer pelo Wine. Ele possui um recurso de OCR que adiciona uma camada de texto ao pdf baseado em imagem existente.

Assim, você pode pesquisar e copiar texto dessa camada invisível.

    
por To Do 19.02.2013 / 11:31
2

Para uma solução de linha de comando, você pode usar pdfocr .

Em resumo, instale o software:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Em seguida, execute o pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Isso funcionou para mim no Ubuntu 12.04 LTS.

    
por Robert Citek 23.03.2014 / 21:23
1

Uma solução que é facilmente implementável e fornece um pdf de saída com a mesma qualidade de arquivo de entrada mais o tamanho razoável é OCRmyPDF:

link

    
por user127022 08.11.2017 / 17:47