Existem vários leitores OCR para o linux que podem converter de imagem em texto. Veja as seguintes opções:
- GOCR : página da Wikipédia
- Ocrad : Página da Wikipédia
- ocropus : Página da Wikipedia
- tesseract-ocr : Página da Wikipédia
Todos os acima, exceto ocropus, estão presentes no repositório do Ubuntu em um pacote com o mesmo nome.
Diferentes leitores suportam diferentes formatos de imagem, então você pode estar limitado em suas opções pelo formato de arquivo em que seu documento se encontra. Alternativamente, você pode usar o converter ferramenta do ImageMagick para alterar o formato se você quiser usar um leitor de OCR específico.
Adaptado da minha resposta aqui .