Eu queria saber se existe uma maneira de extrair legendas codificadas via OCR, devo fazer algum processamento de imagem depois de extrair os quadros para usar tesseract
depois?
Eu tentei extrair quadros do vídeo e remover tudo o que não é a cor das legendas, mas obtive resultados terríveis ao usar tesseract
depois.
É possível obter resultados decentes usando apenas alguma solução alternativa como essa ou devo treinar tesseract
? É fácil gerar dados de treinamento a partir de citações aleatórias adicionadas em fotos de filmes aleatórios com fontes aleatórias, mas isso exigirá muito tempo para treiná-las.
Tags dvd ocr video-subtitles