Como eu treino o tesseract para ignorar as linhas onduladas adicionadas da detecção de erros ortográficos e gramaticais?

1

Estou usando o tesseract para detectar texto em vários tipos de imagem, incluindo capturas de tela, e ele está ficando confuso com os sublinhados em vermelho e azul ondulados para avisos de ortografia e gramática, como no exemplo abaixo. Eu acabo ficando sem texto ou uma bagunça ilegível.

Eu procurei maneiras de eliminar essas linhas no pré-processamento do imagemagick com algum sucesso, mas esses métodos apagam qualquer texto que seja vermelho ou azul, o que é indesejável - além disso, eles demoram muito para serem executados e eu preciso processa mais de 100 mil imagens por dia. Estou pensando que talvez haja uma maneira de treinar o aprendizado para reconhecer e descartar essas linhas, mas não tenho certeza de como isso funcionaria.

Tenho visto tutoriais sobre como treinar o tesseract para reconhecer texto, mas não vi nada como treinar para reconhecer algo que não seja texto. Existe uma maneira que eu possa treinar o tesseract, ou fazer algo com a configuração do Leptonica que ele usa, para ignorar essas linhas?

Se alguém tiver lidado com isso com sucesso, avise-me, caso contrário, qual seria a abordagem recomendada?

    
por GdD 13.01.2017 / 10:45

0 respostas