Eu gostaria de converter os livros impressos que possuo em áudio, digitalizando-os com OCR e, em seguida, executando o texto por meio de um mecanismo TTS. Esses títulos não estão disponíveis como e-books.
Como o OCR pode gerar pequenos erros, especialmente ao converter imagens com fontes antigas, eu gostaria de encontrar um mecanismo de OCR que possa marcar cada região do texto com metadados descrevendo a probabilidade percebida do mecanismo de uma correspondência correta ou uma variedade de outras possibilidades . Por exemplo, veja a transcrição do correio de voz do Google Voice, que destaca cada palavra em tons de cinza, indicando a classificação de probabilidade do mecanismo de fala para texto.
Você conhece algum pacote que ofereça isso?
Tags ocr