Qual é a melhor e mais simples solução de OCR?

66

Eu gostaria de escanear uma boa quantidade de artigos que eu tenho por aí, com o mínimo possível de problemas. Eu gostaria de convertê-los para imagens usando o Simple Scan e, em seguida, convertê-los em texto usando o OCR. Existe um bom aplicativo de OCR com uma GUI que me dê bons resultados ao pressionar um botão?

    
por Bou 05.12.2010 / 11:32

7 respostas

64
  • GOCR de é um programa OCR (Optical Character Recognition). Converte imagens digitalizadas de texto de volta para arquivos de texto.

  • CLARA é outra boa opção gráfica.

  • OCRAD de é um OCR pode ser usado como um aplicativo de console independente ou como um back-end para outros programas.

  • KOOKA de é uma aplicação do KDE, mas funciona bem, além disso tem de instalar programas OCR reais como GOCR e OCRAD. Depois de instalar o Kooka e os programas OCR, tem de apontar o Kooka para o local de instalação do OCR para poder converter o JPEG para texto.

  • OCRFeeder de é uma análise de layout de documentos e sistema de reconhecimento óptico de caracteres.

  • Tesseract de é o utilitário de linha de comando e é muito simples de usar. Você pode instalar o pacote de idiomas tesseract-ocr-eng de < a href="http://apt.ubuntu.com/p/tesseract-ocr-eng"> aqui .

Dê uma olhada nesta página .

Nota:
Para executar o terminal goto tesseract e digite o seguinte

tesseract imagefile.tif outputfile.txt

O Tesseract só pode ler um arquivo TIFF - se você tiver um arquivo JPEG ou PDF ou qualquer outra coisa, terá que convertê-lo. Além disso, a extensão do nome do arquivo deve ser .tif, não .tiff, caso contrário, os erros do tesseract são eliminados.

    
por karthick87 05.12.2010 / 11:38
8

linux-intelligent-ocr-solution

disclaimer - Estou intimamente ligado ao desenvolvimento desta solução de código aberto

O Lios pode converter a impressão em texto usando um scanner ou uma câmera.

Também pode produzir texto a partir de imagens digitalizadas de outras fontes, como PDF, Imagem ou Pasta contendo Imagens.

O programa recebe total acessibilidade para deficientes visuais.

Desde que eu estou intimamente ligado - eu adoraria feedback.

por Nalin.x.Linux 13.11.2012 / 02:57
8

Existem algumas ferramentas de linha de comando OCR que você pode usar (não sei se têm GUI):

  • Tesseract ( ReadMe , FAQ ) (Python)

    Também disponível para: Tesseract .NET , Tesseract iOS

    % bl0ck_qu0te%

    Uso:

    tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
    
  • GOCR

    % bl0ck_qu0te%
  • OCRopus ™ ( FAQ ) (escrito em Python, NumPy e SciPy)

    % bl0ck_qu0te%
  • Tessnet2 (fonte aberta, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)

    % bl0ck_qu0te%

Poucos outros: ABBYY CLI OCR para Linux , Asprise OCR

Para uma lista mais completa, verifique: Lista de software de reconhecimento óptico de caracteres na Wikipedia

Veja também: wanghaisheng/awesome-ocr - Uma lista curada de recursos promissores de OCR no GitHub.

    
por kenorb 19.09.2014 / 14:04
6

Gscan2PDF

OCR em PDF de várias páginas ou documentos digitalizados

Esta é provavelmente a maneira mais fácil. O Gscan2pdf é uma ferramenta gráfica que permite não apenas digitalizar arquivos, mas também importar arquivos e executar o OCR neles. Instale gscan2pdf aqui , do Ubuntu Software Center ou executando este comando em um terminal:

sudo apt-get install gscan2pdf
  • Executar gscan2pdf
  • Importe o pdf (Ctrl + O)
  • Opcional: Ferramentas > Limpar
  • Escolha Ferramentas > OCR Salvar (Ctrl + S)

O Gscan2PDF pode usar mecanismos de OCR personalizáveis, o padrão é tesseract-ocr

Você pode considerar selecionar o idioma apropriado. Nesse caso, você precisará instalar o tesseract-ocr-LANG package, onde LANG é o código de idioma ISO 639-2 de três letras. Agora você tem 108 idiomas em 16.04 repo.

por mxdsp 03.02.2016 / 21:54
2

Acabei de ter sucesso (em 16.04) com pdfocr.rb . Isso está listado em wiki do Ubuntu

Aqui está um ppa , mas o repositório do 16.04 não está atualizado. O script ruby acima do github ainda funciona com 16.04.

Você pode fazer o download do Github. Você precisará dos seguintes pacotes instalados:

ruby tesseract-ocr pdftk exactimage

então executou o arquivo pdfocr.rb e executou:

./pdfocf.rb -i source.pdf -o output.pdf

Opcionalmente, você pode usar o parâmetro -l LANG . Nesse caso, você precisará instalar o tesseract-ocr-LANG package, onde LANG é o código de idioma ISO 639-2 de três letras. Agora você tem 108 idiomas em 16.04 repo.

    
por user75505 16.11.2016 / 20:58
2

A melhor e mais fácil maneira de usar o pypdfocr não muda o pdf. pypdfocr é um link para o módulo python aqui

pypdfocr your_document.pdf

No final, você terá outro your_document_ocr.pdf da maneira que desejar com texto pesquisável. O aplicativo não altera a qualidade da imagem. Aumenta o tamanho do arquivo adicionando o texto de sobreposição.

Eu acho que o comando é bem fácil de não precisar de nenhuma GUI. Talvez a instalação do pypdfocr seja um pouco mais detalhada:

sudo apt install tesseract-ocr 
pip install pypdfocr 
    
por Eduard Florinescu 03.02.2018 / 20:04
0

O gscan2pdf inclui 3 mecanismos diferentes de ocr. Você pode digitalizar diretamente para o programa ou importar seu pdf para o programa. Eu encontrei o motor Tesseract funciona muito bem, e muito fácil de usar

    
por Vince West 20.11.2014 / 16:45