pdftotext converte espaços em porcentagens e traços em seis

0

pdftotext de alguma forma converte todos os caracteres de espaço ("") em sinais de porcentagem ("%") e todos os travessões ("-") em seis ("6") para um pdf específico.

Alguma ideia de como evitar esse comportamento? Ou como diagnosticar isso?

Infelizmente, não posso compartilhar o pdf no momento. Isso pode tornar muito difícil responder à pergunta. Mas talvez alguém possa fazer uma boa suposição de qualquer maneira, com base nessas substituições estranhas de personagens.

versão pdftotext 0.26.5

    
por BlackShift 20.04.2018 / 13:58

1 resposta

0

Adivinha: Este PDF usa uma fonte engraçada, que na verdade contém espaços (normalmente, espaços são feitos posicionando caracteres) e tem uma forma especial de traço. Esses dois glifos ocupam as duas posições na fonte especial em que % e 6 estão em outras fontes.

pdftext não sabe nada sobre isso, apenas vê "coloque este glifo desta fonte aqui" (porque é assim que um arquivo PDF se parece), então ele assume erroneamente que é texto.

Diagnóstico: Use mutool do pacote mupdf (ou alguma outra ferramenta) para descompactar os fluxos, abra o resultado em um editor de texto que possa manipular arquivos grandes, se necessário (por exemplo, emacs), veja como a página é processado. Google para a especificação do PDF se você quiser entender mais detalhes sobre como os PDFs são renderizados.

Como alternativa: Extraia fontes do PDF, veja se uma das fontes possui dois glifos, conforme descrito.

    
por 20.04.2018 / 15:06

Tags