Training Tesseract-OCR para fontes em inglês

Question

Training Tesseract-OCR para fontes em inglês

#1 resposta do (0 votos)

3

Tenho cerca de 3000 pequenas imagens de palavras únicas que estou tentando converter em texto. Eu instalei o tesseract na minha máquina windows 7 usando o instalador e consegui imagens de OCR através de cmd e powershell.

 tesseract.exe imagename.png imagename

produz um arquivo de texto com o texto convertido.

Os resultados que obtive foram terríveis, com apenas cerca de 40% dos caracteres convertidos com sucesso. Eu gostaria de melhorar os resultados.

Alguém sabe quais são as configurações opcionais que podem ser fornecidas neste comando? Os argumentos requeridos são:

tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]

Também alguém poderia descrever o procedimento de treinamento, estou achando difícil entender a documentação . Eu sei que meu texto é em tempos novo romano. Preciso treiná-lo para o TNR ou já está embutido e / ou é possível baixar arquivos que permitam que o tesseract o reconheça?

ocr tesseract-ocr

por andrew 19.01.2011 / 19:51

1 resposta

Tags ocr tesseract-ocr

zsh autocompletar o caractere curinga na rede Mac ASL: Não é possível ver as mensagens de log do meu aplicativo

score 0 · Answer 1

Uma maneira de remover os resultados é pré-processá-los, como remover qualquer distorção e limiar-los. Você pode usar o CV aberto. Mais tarde você pode treinar o texto