Eu estou querendo saber se existe uma maneira de dividir uma cópia digitalizada de uma página (ou seja, uma imagem) em imagens de suas palavras constituintes. O livro que está sendo escaneado está em uma língua indiana para a qual o OCR (Optical Character Recognition) não funcionaria.
O objetivo é ter uma versão digital do livro (no mesmo idioma) e, para isso, eu estava pensando em fazer o seguinte -
Como a correspondência entre imagens e imagens é razoavelmente boa, imagens das mesmas palavras podem ser identificadas e, portanto, não precisariam ser transcritas repetidamente.
Qualquer ajuda seria ótima!