Recomendações de software de reconhecimento óptico de caracteres?

15

Eu vi alguns ebooks / artigos que aparentemente foram digitalizados de suas versões em papel, mas o texto nos ebooks / papers pode ser copiado de forma surpreendente. Suponho que as versões digitalizadas diretamente devem ter sido processadas por algum software de reconhecimento óptico de caracteres.

Então, eu gostaria de saber quais são os softwares de reconhecimento óptico de caracteres recomendados? Especialmente aqueles que são para o Ubuntu ou gratuitos? Se aqueles para o Windows são muito superiores, por favor me avise também.

Estou particularmente interessado nos OCRs que aceitam um arquivo PDF digitalizado como entrada e ainda produzem como resultado outro arquivo em pdf que parece o mesmo que o de entrada, mas com texto copiável.

Obrigado e cumprimentos!

Por favor limite um software por resposta

    
por Tim 12.01.2011 / 23:47

10 respostas

10

OCR do Tesseract

O mecanismo original foi desenvolvido no final dos anos 80 pela HP e IBM, mas provou ser um dos melhores softwares de reconhecimento ocular que usei. Ele passou recentemente por muitas atualizações no mecanismo e se tornou uma das ferramentas de OCR mais abrangentes do mercado. Outscoring contra quase todas as outras ferramentas de OCR (com algo no maior percentil 90 de correspondências de texto) ele pode facilmente transformar o tipo de documento padrão em texto.

O seguinte é um exemplo:

tesseract ScannedDocument.png out

Produzirá um arquivo chamado out.txt

    
por Dennis 11.03.2017 / 19:59
8

Outro projeto que deve ser capaz de fazer isso é o gscan2pdf

sudo apt-get install gscan2pdf

Este projeto também pode usar o Tesseract, bem como outras ferramentas OCR de código aberto.

    
por Mark Kirby 12.02.2017 / 22:44
3

Eu não conheço nenhum OCR para o Ubuntu, mas para o Windows há um que tem os recursos que você precisa. Isso é ABBYY FineReader esta é a página mas não é gratuita

    
por vicmp3 22.10.2010 / 04:49
3

Solução gratuita existe em repos, CunieForm (e YAGF como front-end do Gnome)

    
por Extender 22.10.2010 / 04:54
3

Parece que o projeto Decapod exporta ou será exportado para PDF, portanto, a Tesseract deve, de alguma forma, exportar as informações necessárias para sabe onde o texto foi encontrado.

    
por JanC 22.10.2010 / 06:12
1

O Adobe Acrobat (não um leitor, não é um aplicativo gratuito) é capaz de fazer o OCR de um documento PDF digitalizado e adicionar uma camada de texto invisível sobre a imagem, para que o texto possa ser selecionado e copiado. Infelizmente, não tenho condições de verificar onde exatamente esse recurso está localizado na interface do usuário do Acrobat, mas tenho usado com sucesso algumas vezes para o mesmo propósito que você mencionou.

E sim, este é um software do Windows, não do Linux, mas de acordo com o banco de dados de aplicativos do Wine HQ, ele funciona sob o vinho .

    
por Serge Broslavsky 22.10.2010 / 07:20
1

O melhor software de OCR geralmente é incorporado em impressoras / scanners / copiadoras. O Canon IRC 3880 no meu escritório pode produzir grandes PDFs com OCR, mais fácil e mais rápido do que qualquer programa de desktop que eu conheço. Coloque o livro na bandeja (não acoplado), selecione seu endereço de e-mail e pressione o botão verde.

A maior parte do PDF do OCR que você pode encontrar na rede vem para máquinas semelhantes. O problema é que o preço é muito alto para uso doméstico (cerca de 12.000 euros IRC).

    
por Javier Rivera 22.10.2010 / 08:55
1

Meu software de OCR gratuito e on-line favorito é oferecido pela Ricoh Innovations. Este é um programa beta, mas acho que funciona muito bem. Confira em: link

    
por Natalie 12.01.2011 / 23:44
1

OCRFeeder

É uma aplicação GUI.

Ele usa tesseract-ocr ou ocrad como mecanismo de OCR.

É possível instalar com o Centro de Software ou com o

sudo apt-get install ocrfeeder
    
por user224082 07.11.2013 / 17:54
0

O FineReader também tem uma versão online. Ele afirma ser capaz de processar PDFs como formato de entrada --- link

    
por texnic 10.06.2011 / 09:56