Como posso extrair texto de imagens?

Question

Como posso extrair texto de imagens?

#1 resposta do Rinzwind (20 votos)
#2 resposta do Sudhir Belagali (12 votos)

19

Não estou falando de arquivos digitalizados, mas de imagens de variedades de jardim, como quando você tira uma foto em alta definição de um quadro negro na aula e é bem escrito à mão; ou quando você fotografa uma página de um livro de receitas e quer a receita em formato de texto.

Qualquer software gratuito e aberto para isso?

Eu tentei o tesseract e os resultados foram terríveis.

software-recommendation images ocr

por Strapakowsky 31.08.2011 / 08:33

2 respostas

12

tesseract-ocr seria o melhor comparado a todos os outros. Para instalação, execute o comando sudo apt-get install tesseract-ocr .

O uso é tesseract filename.jpg output.txt .

O comando acima irá gerar output.txt .

Você pode considerar selecionar o idioma apropriado. Nesse caso, você precisará instalar o tesseract-ocr-LANG package, onde LANG é o código de idioma ISO 639-2 de três letras. Agora você tem 108 idiomas em 16.04 repo. Em seguida, use tesseract filename.jpg output -l LANG .

por Sudhir Belagali 18.04.2016 / 03:44

Tags software-recommendation images ocr

Como (e onde) pode-se mudar o padrão 'user @ host $:' no gnome-terminal? A Unity será a única opção durante a instalação?

score 20 · Accepted Answer

O ato de extrair texto das imagens é chamado OCR e o Ubuntu tem uma página wiki dedicada a OCR . Daquela página:

Ferramentas de OCR disponíveis

Os repositórios do Ubuntu Universe contêm as seguintes ferramentas de OCR:

gocr - Um OCR de linha de comando
fuzzyocr - plugin do spamassassin para verificar anexos de imagens
libhocr0 - OCR em hebraico
ocrad - Programa de Reconhecimento Ótico de Caracteres
ocrfeeder - Análise do layout do documento e sistema de reconhecimento óptico de caracteres
ocropus - análise de documentos e sistema de OCR
tesseract-ocr

Os repositórios multiversos do Ubuntu também contêm:

cuneiforme - sistema OCR em vários idiomas

Alguns pacotes estão desatualizados, mas novos não-oficiais podem ser encontrados em PPA Alex_P (código de adição PPA : ppa: alex-p / notesalexp). Se você nunca usou um PPA verifique como adicionar software de um PPA .

edite: Como mostrado no comentário Clara OCR existe também, mas ficou em Hardy e seu site tem 2009 como última atualização.