Training Tesseract-OCR para fontes em inglês

3

Tenho cerca de 3000 pequenas imagens de palavras únicas que estou tentando converter em texto. Eu instalei o tesseract na minha máquina windows 7 usando o instalador e consegui imagens de OCR através de cmd e powershell.

 tesseract.exe imagename.png imagename 

produz um arquivo de texto com o texto convertido.

Os resultados que obtive foram terríveis, com apenas cerca de 40% dos caracteres convertidos com sucesso. Eu gostaria de melhorar os resultados.

Alguém sabe quais são as configurações opcionais que podem ser fornecidas neste comando? Os argumentos requeridos são:

tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]

Também alguém poderia descrever o procedimento de treinamento, estou achando difícil entender a documentação . Eu sei que meu texto é em tempos novo romano. Preciso treiná-lo para o TNR ou já está embutido e / ou é possível baixar arquivos que permitam que o tesseract o reconheça?

    
por andrew 19.01.2011 / 20:51

1 resposta

0

Uma maneira de remover os resultados é pré-processá-los, como remover qualquer distorção e limiar-los. Você pode usar o CV aberto. Mais tarde você pode treinar o texto

    
por 08.12.2013 / 20:08