Como posso extrair texto de imagens?

19

Como posso extrair texto de imagens?

Não estou falando de arquivos digitalizados, mas de imagens de variedades de jardim, como quando você tira uma foto em alta definição de um quadro negro na aula e é bem escrito à mão; ou quando você fotografa uma página de um livro de receitas e quer a receita em formato de texto.

Qualquer software gratuito e aberto para isso?

Eu tentei o tesseract e os resultados foram terríveis.

    
por Strapakowsky 31.08.2011 / 10:33

2 respostas

20

O ato de extrair texto das imagens é chamado OCR e o Ubuntu tem uma página wiki dedicada a OCR . Daquela página:

Ferramentas de OCR disponíveis

Os repositórios do Ubuntu Universe contêm as seguintes ferramentas de OCR:

  1. gocr - Um OCR de linha de comando
  2. fuzzyocr - plugin do spamassassin para verificar anexos de imagens
  3. libhocr0 - OCR em hebraico
  4. ocrad - Programa de Reconhecimento Ótico de Caracteres
  5. ocrfeeder - Análise do layout do documento e sistema de reconhecimento óptico de caracteres
  6. ocropus - análise de documentos e sistema de OCR
  7. tesseract-ocr

Os repositórios multiversos do Ubuntu também contêm:

  1. cuneiforme - sistema OCR em vários idiomas

Alguns pacotes estão desatualizados, mas novos não-oficiais podem ser encontrados em PPA Alex_P (código de adição PPA : ppa: alex-p / notesalexp). Se você nunca usou um PPA verifique como adicionar software de um PPA .

edite: Como mostrado no comentário Clara OCR existe também, mas ficou em Hardy e seu site tem 2009 como última atualização.

    
por Rinzwind 31.08.2011 / 10:55
12

tesseract-ocr seria o melhor comparado a todos os outros. Para instalação, execute o comando sudo apt-get install tesseract-ocr .

O uso é tesseract filename.jpg output.txt .

O comando acima irá gerar output.txt .

Você pode considerar selecionar o idioma apropriado. Nesse caso, você precisará instalar o tesseract-ocr-LANG package, onde LANG é o código de idioma ISO 639-2 de três letras. Agora você tem 108 idiomas em 16.04 repo. Em seguida, use tesseract filename.jpg output -l LANG .

    
por Sudhir Belagali 18.04.2016 / 05:44