tesseract: é possível alterar a saída da fonte no pdf OCRed?

4

Acompanhamento de Como fazer o OCR de um arquivo pdf e obter o texto armazenado em pdf? Produzi com sucesso páginas pdf em OCR.

Em Evince, no entanto, as letras não são mostradas; por isso quero dizer que não consigo ver os personagens, mas posso selecioná-los, copiá-los e colá-los em outro lugar com sucesso. Isso não parece ser um bug do Evince: link

Ao iniciar um OCR de uma página em pdf com o pdfsandwich, o tesseract produz uma página que

contains a font which doesn't have any usable glyphs (they named it GlyphLessFont). It has only .notdef and .null replacements (the squares). Evince uses the .notdef glyph if there is no glyph for the character. The reason that Okular highlight the text is because it does it in the image not as a regular text as evince does.

O pdftotext reconhece os caracteres.

Agora, a pergunta é: pode ser dito para usar uma fonte diferente?

    
por ingli 27.08.2016 / 10:14

1 resposta

3

Você pode personalizar esta parte do código-fonte ao seu gosto e alterar a fonte aqui. Você terá que reconstruir o tesseract a partir da fonte assim que fizer a alteração.

Renderizador do Github do Tesseract

    
por 22.03.2017 / 22:39