como OCR um arquivo pdf e obter o texto armazenado em pdf?

11

Primeiro, desculpe se isso foi solicitado antes - procurei por um tempo nas postagens existentes, mas não consegui encontrar suporte.

Estou interessado em uma solução para o Fedora para o OCR de um pdf multivariavel não pesquisável e para transformar este pdf em um novo arquivo pdf que contém a camada de texto sobre a imagem. No Mac OSX ou no Windows, poderíamos usar o Adobe Acrobat, mas no Linux, especificamente no Fedora?

link parece descrever uma solução - mas infelizmente eu já estou perdido ao recuperar -imagem.

    
por ingli 04.08.2016 / 17:39

3 respostas

6

A melhor e mais fácil maneira de usar o pypdfocr não muda o pdf. pypdfocr é um link para o módulo python aqui

pypdfocr your_document.pdf

No final, você terá outro your_document_ocr.pdf da maneira que desejar com texto pesquisável. O aplicativo não altera a qualidade da imagem. Aumenta o tamanho do arquivo adicionando o texto de sobreposição.

Eu acho que o comando é bem fácil de não precisar de nenhuma GUI. Talvez a instalação do pypdfocr seja um pouco mais detalhada:

sudo dnf -y install tesseract 
pip install pypdfocr 

Atualização de 3 de novembro de 2018:

pypdfocr não é mais suportado desde 2016 e notei alguns problemas devido a não serem mentalizados. O ocrmypdf ( module ) faz um trabalho similiar e pode ser usado assim:

ocrmypdf in.pdf out.pdf

Para instalar:

pip install ocrmypdf

ou

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install tesseract #fedora
    
por 03.02.2018 / 20:23
5

Depois de saber que o tesseract pode agora produzir PDFs pesquisáveis, encontrei o sanduíche de script: link

depois de instalar dependências (pode não ser a lista completa)

sudo dnf install svn ocaml unpaper tesseract

Eu segui o guia do script para compilar a partir da fonte

Compile from sources

pdfsandwich is open source software (license: GPL). You can download the sources either as .tar.bz2 package from the download area on the project website or check them out by subversion:

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

If OCaml is installed on your system, you can compile and install as follows:

cd pdfsandwich
./configure
make
sudo make install

e isso agora me permite executar

sandwich multipaged-non-searchable.pdf

resultando em um pdf pesquisável.

    
por 04.08.2016 / 17:39
1

Uma ferramenta fácil disponível no Ubuntu é o 'ocrfeeder' que permite a geração de PDFs com texto OCR sobreposto nos documentos originais. Ele usa o Tesseract e outros mecanismos OCR (não sabe ao certo) e também oferece rotação de imagem / 'unpaper', etc.

por 18.10.2018 / 06:14