tesseract: é possível alterar a saída da fonte no pdf OCRed?

Question

tesseract: é possível alterar a saída da fonte no pdf OCRed?

#1 resposta do (3 votos)

4

Acompanhamento de Como fazer o OCR de um arquivo pdf e obter o texto armazenado em pdf? Produzi com sucesso páginas pdf em OCR.

Em Evince, no entanto, as letras não são mostradas; por isso quero dizer que não consigo ver os personagens, mas posso selecioná-los, copiá-los e colá-los em outro lugar com sucesso. Isso não parece ser um bug do Evince: link

Ao iniciar um OCR de uma página em pdf com o pdfsandwich, o tesseract produz uma página que

contains a font which doesn't have any usable glyphs (they named it GlyphLessFont). It has only .notdef and .null replacements (the squares). Evince uses the .notdef glyph if there is no glyph for the character. The reason that Okular highlight the text is because it does it in the image not as a regular text as evince does.

O pdftotext reconhece os caracteres.

Agora, a pergunta é: pode ser dito para usar uma fonte diferente?

fonts pdf ocr evince tesseract

por ingli 27.08.2016 / 08:14

1 resposta

Tags fonts pdf ocr evince tesseract

Obtenha o código de saída dos processos bifurcados do processo mestre onde é o PATH para usuários setados no linux, antes de qualquer shell, ou sudo, pam.d muda isso?

score 3 · Answer 1

Você pode personalizar esta parte do código-fonte ao seu gosto e alterar a fonte aqui. Você terá que reconstruir o tesseract a partir da fonte assim que fizer a alteração.

Renderizador do Github do Tesseract