Como mencionado por outros, você pode usar os pacotes de idioma inglês do 3.02 para o 3.03. Abaixo estão as instruções:
- Faça o download e descompacte a partir daqui: 1
-
Instalar pré-requisitos e descompactar
'sudo apt-fast install -y libicu-dev libpango1.0-dev libcairo2-dev' 'tar xfv tesseract-ocr-3.02.eng.tar.gz'
-
Extraia o pacote de dados em inglês do Tesseract para o diretório tessdata dentro do diretório tesseract-3.03. Assumindo que ambos (dados em inglês e arquivos fonte ttareract .tar.gz) estão na mesma pasta
tar zxvf tesseract-ocr-3.02.eng.tar.gz
mv tesseract-ocr / tessdata / . tesseract-3.03 / tessdata /
4. Volte para o diretório do tesseract e termine a instalação
cd tesseract-3.03
./autogen.sh
./configure
make -j
sudo make install LANGS="eng"
sudo ldconfig
Agora teste sua instalação com a imagem de teste no diretório
tesseract phototest.tif ans -l eng
cat ans.txt
Saída:
This is a lot of 12 point text to test the ocr code and see if it works on all types of file format.
The quick brown dog jumped over the lazy fox. The quick brown dog jumped over the lazy fox. The quick brown dog jumped over the lazy fox. The quick brown dog jumped over the lazy fox.
NOTA: algumas linhas têm formatação incorreta ... qualquer conselho para corrigi-las seria ótimo