Adivinha: Este PDF usa uma fonte engraçada, que na verdade contém espaços (normalmente, espaços são feitos posicionando caracteres) e tem uma forma especial de traço. Esses dois glifos ocupam as duas posições na fonte especial em que %
e 6
estão em outras fontes.
pdftext
não sabe nada sobre isso, apenas vê "coloque este glifo desta fonte aqui" (porque é assim que um arquivo PDF se parece), então ele assume erroneamente que é texto.
Diagnóstico: Use mutool
do pacote mupdf
(ou alguma outra ferramenta) para descompactar os fluxos, abra o resultado em um editor de texto que possa manipular arquivos grandes, se necessário (por exemplo, emacs), veja como a página é processado. Google para a especificação do PDF se você quiser entender mais detalhes sobre como os PDFs são renderizados.
Como alternativa: Extraia fontes do PDF, veja se uma das fontes possui dois glifos, conforme descrito.