Como posso fazer com que o OCR reconheça melhor o texto dos meus documentos?

3

Não consigo que alguns dos meus documentos com imagens sejam reconhecidos pelo OCR. Eles não são especialmente de baixa resolução - embora alguns sejam distorcidos - mas eu não posso consegui-los através do OCR mesmo com o Omnipage. Eu enviei um um como um exemplo (convertido de DOC para PDF para Omnipage) mas tenho Mais. O que posso fazer para ter sucesso no OCR?

    
por user55542 10.03.2011 / 18:49

1 resposta

1

Apesar de parecerem na tela, as imagens de texto não têm uma resolução muito alta. Você pode ver isso ampliando a exibição em um visualizador de PDF. As imagens são pixelizadas e nem todas em preto e branco.

Eu extraí as imagens com imagens em pdf. Gocr trabalhou nas imagens .ppm resultantes, mas com muitos erros. Eu não pude fazer o tesseract trabalhar com as imagens apesar da conversão para o tiff monocromático.

    
por 10.03.2011 / 20:40

Tags