O ato de extrair texto das imagens é chamado OCR
e o Ubuntu tem uma página wiki dedicada a OCR . Daquela página:
Ferramentas de OCR disponíveis
Os repositórios do Ubuntu Universe contêm as seguintes ferramentas de OCR:
- gocr - Um OCR de linha de comando
- fuzzyocr - plugin do spamassassin para verificar anexos de imagens
- libhocr0 - OCR em hebraico
- ocrad - Programa de Reconhecimento Ótico de Caracteres
- ocrfeeder - Análise do layout do documento e sistema de reconhecimento óptico de caracteres
- ocropus - análise de documentos e sistema de OCR
- tesseract-ocr
Os repositórios multiversos do Ubuntu também contêm:
- cuneiforme - sistema OCR em vários idiomas
Alguns pacotes estão desatualizados, mas novos não-oficiais podem ser encontrados em PPA Alex_P (código de adição PPA : ppa: alex-p / notesalexp). Se você nunca usou um PPA verifique como adicionar software de um PPA .
edite: Como mostrado no comentário Clara OCR existe também, mas ficou em Hardy e seu site tem 2009 como última atualização.