como OCR um arquivo pdf e obter o texto armazenado em pdf?

Question

como OCR um arquivo pdf e obter o texto armazenado em pdf?

#1 resposta do (6 votos)
#2 resposta do (5 votos)
#3 resposta do (1 votos)

11

Primeiro, desculpe se isso foi solicitado antes - procurei por um tempo nas postagens existentes, mas não consegui encontrar suporte.

Estou interessado em uma solução para o Fedora para o OCR de um pdf multivariavel não pesquisável e para transformar este pdf em um novo arquivo pdf que contém a camada de texto sobre a imagem. No Mac OSX ou no Windows, poderíamos usar o Adobe Acrobat, mas no Linux, especificamente no Fedora?

link parece descrever uma solução - mas infelizmente eu já estou perdido ao recuperar -imagem.

command-line pdf ocr

por ingli 04.08.2016 / 15:39

3 respostas

5

Depois de saber que o tesseract pode agora produzir PDFs pesquisáveis, encontrei o sanduíche de script: link

depois de instalar dependências (pode não ser a lista completa)

sudo dnf install svn ocaml unpaper tesseract

Eu segui o guia do script para compilar a partir da fonte

Compile from sources

pdfsandwich is open source software (license: GPL). You can download the sources either as .tar.bz2 package from the download area on the project website or check them out by subversion:

svn checkout svn://svn.code.sf.net/p/pdfsandwich/code/trunk/src pdfsandwich

If OCaml is installed on your system, you can compile and install as follows:

cd pdfsandwich
./configure
make
sudo make install

e isso agora me permite executar

sandwich multipaged-non-searchable.pdf

resultando em um pdf pesquisável.

por 04.08.2016 / 15:39

1

Uma ferramenta fácil disponível no Ubuntu é o 'ocrfeeder' que permite a geração de PDFs com texto OCR sobreposto nos documentos originais. Ele usa o Tesseract e outros mecanismos OCR (não sabe ao certo) e também oferece rotação de imagem / 'unpaper', etc.

link
link

por 18.10.2018 / 04:14

Tags command-line pdf ocr

Por que alguns comandos regex possuem interpretações opostas de '\' com vários caracteres? Renomear arquivo com nome estranho na montagem do Samba

score 6 · Accepted Answer

A melhor e mais fácil maneira de usar o pypdfocr não muda o pdf. pypdfocr é um link para o módulo python aqui

pypdfocr your_document.pdf

No final, você terá outro your_document_ocr.pdf da maneira que desejar com texto pesquisável. O aplicativo não altera a qualidade da imagem. Aumenta o tamanho do arquivo adicionando o texto de sobreposição.

Eu acho que o comando é bem fácil de não precisar de nenhuma GUI. Talvez a instalação do pypdfocr seja um pouco mais detalhada:

sudo dnf -y install tesseract 
pip install pypdfocr

Atualização de 3 de novembro de 2018:

pypdfocr não é mais suportado desde 2016 e notei alguns problemas devido a não serem mentalizados. O ocrmypdf ( module ) faz um trabalho similiar e pode ser usado assim:

ocrmypdf in.pdf out.pdf

Para instalar:

pip install ocrmypdf

ou

sudo apt install ocrmypdf  #ubuntu
sudo dnf -y install tesseract #fedora