Fonte ideal para o Tesseract? (especificamente o wrapper do .NET)

0

Estou usando o Tesseract como um meio de converter documentos de texto impressos capturados pela câmera do meu celular em texto. Os resultados não são ótimos. A qualidade da imagem é muito boa, muito mais clara do que um fax, mas parece que é muito difícil identificar os caracteres.

Eu também tentei imitar um desses documentos em um editor de texto, fazendo uma captura de tela da janela e executando isso através do Tesseract e os resultados são apenas marginalmente melhores.

Isso me leva a acreditar que provavelmente existe uma fonte ideal para o Tesseract. Eu pesquisei um pouco e encontrei o OCR-A, mas aparentemente requer uma licença. Então eu me deparei com sou livre OCR-A alternativa no SourceFourge, mas não parece muito melhor do que Arial ou Courier New.

Existe uma fonte que funciona melhor com o Tesseract ou eu preciso fazer outra coisa para aumentar a precisão do reconhecimento de caracteres?

    
por user613051 03.07.2016 / 18:12

1 resposta

0

Sua melhor escolha é treiná-lo para qualquer fonte que você esteja usando.

Eu não quero fingir que este é um processo fácil, não é, mas deve funcionar melhor. Além disso, a maioria dos programas OCR favorece 300dpi ou 600dpi, por isso talvez seja necessário um aumento de escala.

O Tesseract Github Wiki tem alguns bons recursos em Training Tesseract .

    
por 03.07.2016 / 20:02