Tesseract 3.03 inglês

4

O Tesseract 3.03 foi lançado recentemente e eu acabei de instalá-lo. No entanto, os dados em inglês não são fornecidos com o download (do link ). No site da Tesseract, há um link "Download", mas você só pode encontrar "dados em inglês para o Tesseract 3.02". Onde eu poderia encontrar aqueles para 3.03?

    
por MarAja 26.05.2014 / 13:44

2 respostas

4

Como mencionado por outros, você pode usar os pacotes de idioma inglês do 3.02 para o 3.03. Abaixo estão as instruções:

  1. Faça o download e descompacte a partir daqui: 1
  2. Instalar pré-requisitos e descompactar

    'sudo apt-fast install -y libicu-dev libpango1.0-dev libcairo2-dev'
    'tar xfv tesseract-ocr-3.02.eng.tar.gz'
    
  3. Extraia o pacote de dados em inglês do Tesseract para o diretório tessdata dentro do diretório tesseract-3.03. Assumindo que ambos (dados em inglês e arquivos fonte ttareract .tar.gz) estão na mesma pasta

    tar zxvf tesseract-ocr-3.02.eng.tar.gz

mv tesseract-ocr / tessdata / . tesseract-3.03 / tessdata /

4. Volte para o diretório do tesseract e termine a instalação

cd tesseract-3.03

./autogen.sh

./configure

make -j

sudo make install LANGS="eng"

sudo ldconfig

Agora teste sua instalação com a imagem de teste no diretório

tesseract phototest.tif  ans -l eng
cat ans.txt

Saída:

This is a lot of 12 point text to test the ocr code and see if it works on all types of file format.

The quick brown dog jumped over the lazy fox. The quick brown dog jumped over the lazy fox. The quick brown dog jumped over the lazy fox. The quick brown dog jumped over the lazy fox.

NOTA: algumas linhas têm formatação incorreta ... qualquer conselho para corrigi-las seria ótimo

    
por 01.10.2014 / 17:06
1

Você pode usar os dados de idioma do 3.02 no 3.03 RC.

Observe também que o 3.03 ainda não foi lançado oficialmente. Essa é uma versão RC.

    
por 16.07.2014 / 13:06