Uma maneira de remover os resultados é pré-processá-los, como remover qualquer distorção e limiar-los. Você pode usar o CV aberto. Mais tarde você pode treinar o texto
Tenho cerca de 3000 pequenas imagens de palavras únicas que estou tentando converter em texto. Eu instalei o tesseract na minha máquina windows 7 usando o instalador e consegui imagens de OCR através de cmd e powershell.
tesseract.exe imagename.png imagename
produz um arquivo de texto com o texto convertido.
Os resultados que obtive foram terríveis, com apenas cerca de 40% dos caracteres convertidos com sucesso. Eu gostaria de melhorar os resultados.
Alguém sabe quais são as configurações opcionais que podem ser fornecidas neste comando? Os argumentos requeridos são:
tesseract imagename outputbase [- lang] [configfile [+|-]varfile]...]
Também alguém poderia descrever o procedimento de treinamento, estou achando difícil entender a documentação . Eu sei que meu texto é em tempos novo romano. Preciso treiná-lo para o TNR ou já está embutido e / ou é possível baixar arquivos que permitam que o tesseract o reconheça?
Uma maneira de remover os resultados é pré-processá-los, como remover qualquer distorção e limiar-los. Você pode usar o CV aberto. Mais tarde você pode treinar o texto
Tags ocr tesseract-ocr