Estou usando o tesseract para detectar texto em vários tipos de imagem, incluindo capturas de tela, e ele está ficando confuso com os sublinhados em vermelho e azul ondulados para avisos de ortografia e gramática, como no exemplo abaixo. Eu acabo ficando sem texto ou uma bagunça ilegível.
Eu procurei maneiras de eliminar essas linhas no pré-processamento do imagemagick com algum sucesso, mas esses métodos apagam qualquer texto que seja vermelho ou azul, o que é indesejável - além disso, eles demoram muito para serem executados e eu preciso processa mais de 100 mil imagens por dia. Estou pensando que talvez haja uma maneira de treinar o aprendizado para reconhecer e descartar essas linhas, mas não tenho certeza de como isso funcionaria.
Tenho visto tutoriais sobre como treinar o tesseract para reconhecer texto, mas não vi nada como treinar para reconhecer algo que não seja texto. Existe uma maneira que eu possa treinar o tesseract, ou fazer algo com a configuração do Leptonica que ele usa, para ignorar essas linhas?
Se alguém tiver lidado com isso com sucesso, avise-me, caso contrário, qual seria a abordagem recomendada?
Tags imagemagick tesseract-ocr