Eu tenho o Linux Mint 17.2 x32 Canela. Provavelmente estes passos funcionariam no Ubuntu 14.04 x32 também.
- Instale o OCR Tesseract
sudo apt-get instalar -y tesseract-ocr tesseract-ocr-eng
Você pode adicionar outros idiomas instalando pacotes adicionais. Esta captura de tela é do synaptic:
Pacotes de idiomas Tesseract no Synaptic
Usando o Tesseract
OPÇÃO 1 - por linha de comando
abra o terminal, então vá para a pasta onde você mantém os arquivos de imagem (jpg, png) e execute o comando:
a) para converter todos os arquivos de imagem em texto
for i in *png; do b='basename "$i" .png'; tesseract -l eng "$i" "$b" text; done
Para mesclar todos os arquivos de texto em um, execute um comando cat *.txt >> all.txt
b) para converter todos os arquivos de imagem para arquivos hocr (aberto com o Firefox)
for i in *png; do b='basename "$i" .png'; tesseract -l eng "$i" "$b" hocr; done
OPÇÃO 2 - por GUI
a) Instale o gImageReader e use-o
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
b) A segunda aplicação é o VietOCR. A versão atual é 4.0, então baixe o VietOCR-4.0.zip
Descompacte arquivos e abra o VietOCR.jar por Java:
Abra o VietOCR por Java
Se você não tiver o Java instalado, poderá instalá-lo a partir do repositório ou poderá instalar o Oracle Java 8 oficial.
Etapas para instalar o Oracle Java 8 no Ubuntu 14.04
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
Eu recomendo o VietOCR, porque ele permite que você faça o OCR em arquivos PDF. A conversão em massa também é uma opção.