Como posso converter imagens digitalizadas como PDF em um arquivo PDF pesquisável? [fechadas]

Question

Como posso converter imagens digitalizadas como PDF em um arquivo PDF pesquisável? [fechadas]

#1 resposta do (5 votos)
#2 resposta do (4 votos)
#3 resposta do (4 votos)
#4 resposta do (2 votos)
#5 resposta do (1 votos)
#6 resposta do (0 votos)
#7 resposta do (0 votos)
#8 resposta do (0 votos)

19

Eu tenho um PDF de um livro digitalizado.

Estou procurando um software gratuito que execute o OCR e, em seguida, ofereça uma opção para salvá-lo como PDF ou documento novamente.

Existe um?

pdf ocr software-rec

por slhck 04.10.2009 / 04:36

8 respostas

Tags pdf ocr software-rec

Monta o vdi como drive no Windows Como criar uma unidade USB virtual no Windows?

score 5 · Answer 1

Você pode fazer o download da avaliação de 30 dias do Adobe Acrobat Pro e usar o 'Reconhecimento de texto de OCR' função ('Document > Reconhecimento de texto OCR > Reconhecer texto usando OCR ...'). Na caixa de diálogo de configurações, escolha 'Imagem pesquisável' como o estilo de saída. Isso manterá a imagem da página, mas incorporará o texto do OCR para que o documento seja pesquisável e permita que o texto seja selecionado, copiado e colado.

Depois de executar o OCR, você precisará confirmar ou corrigir as palavras que o OCR não tem certeza sobre o uso das funções 'Localizar suspeitas de OCR'.

score 4 · Answer 2

Se você tem uma Conta do Google, o Google Docs agora inclui a funcionalidade de fazer o upload de um arquivo PDF e executar o OCR nele.

Eu tentei por mim mesmo e isso é uma facada justa em um PDF reconhecidamente bem formatado.

A formatação é praticamente destruída, mas o texto parece sobreviver.

score 4 · Answer 3

Os seguintes produtos foram encontrados listados na Internet, mas eu não os usei.

OCR on-line

Terminal de OCR

OCR Terminal is an online OCR service that performs Optical Character Recognition (OCR) on your scanned images and pdf files and renders them into editable and text searchable documents.

Free OCR

Free-OCR.com is a free online OCR (Optical Character Recognition) tool. You can use this to perform OCR on any image you supply.
This service is free, no registration necessary. We also do not need your email address.
Just upload your image files. Free-OCR takes either a JPG, GIF, TIFF BMP or PDF (only first page). The only restriction is that the images must not be larger than 2MB, no wider or higher than 5000 pixels and there is a limit of 10 image uploads per hour.

O Maestro Recognition Server é comercial, mas tem uma demonstração on-line.

Software gratuito

FreeOCR - apenas para imagens.

FreeOCR is a scan & OCR program including the Tesseract free ocr engine also known as a Tesseract GUI. It includes a Windows installer and It is very simple to use and supports multi-page tiff's, fax documents as well as most image types including compressed Tiff's which the Tesseract engine on its own cannot read .It now has Twain scanning.

pdfsandwich - pdf - > pdf conversor.

pdfsandwich is a command line tool for OCR scanned books or journals. It is able to recognize the page layout even for multicolumn text.

Essentially, pdfsandwich is a wrapper script which calls the following binaries: convert, cuneiform, gs, and hocr2pdf. It is known to run on Unix systems and has been tested on Linux and MacOS X. It supports parallel processing on multiprocessor systems.

score 2 · Answer 4

Cuneiforme + hocr2pdf + Ghostscript : Uma solução DIY de código aberto.

Eu postei um responder delineando uma solução envolvendo uma versão do agora open-source Sistema de OCR Cuneiforme e hocr2pdf em conjunto com < href="http://pages.cs.wisc.edu/~ghost/"> Ghostscript para colocar as páginas PDF juntas.

Isso foi especificamente para o Linux, mas você também pode usar o Cuneiform e o Ghostscript para Windows. Eu não tenho certeza sobre hocr2pdf ou um equivalente, no entanto.

score 1 · Answer 5

Aqui está muito método estranho, que envolve deixar o índice do Google e o OCR para você em um site e depois recuperá-lo.

score 0 · Answer 6

Instale Imagemagick . Abra uma janela ou terminal cmd:

convert myfile.pdf myfile-%02d.jpg

A saída será 1 arquivo jpg para cada página em seu pdf, myfile-00.jpg, myfile-01.jpg, etc.

Passe cada imagem através de um programa ocr. Eu não tenho muita experiência com isso, mas parece que há muitas escolhas.

Converta cada página do texto de volta em pdf. Você poderia fazer isso novamente com o imagemagick, mas também há outras maneiras:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf

score 0 · Answer 7

Sua solicitação parece ser uma solução complicada para o problema, embora eu possa não entender o problema corretamente. De qualquer forma:

Por que não obter um gravador de PDF que permitirá que você insira os dados diretamente na página em PDF?

score 0 · Answer 8

Tente PDFCubed.com Não há nada para instalar, tudo é feito online. Você pode enviar seus documentos para serem processados via web, email ou caixa de depósito. Os PDFs e TIFs digitalizados são convertidos em PDFs de texto pesquisáveis e podem ser recuperados via web, email ou caixa de depósito.