Observe que, no texto que você colou, "fi" em "primeiro" e "ffi" em
"afinidade" são ligaduras (múltiplos caracteres combinados em um único
glyph). Presumivelmente, pdftotext
imprime cada uma dessas ligaduras como
único caractere, que as ferramentas que você usa para ler o texto não suportam.
Como uma pergunta de superusuário sugere, tente o seguinte:
pdftotext -enc ASCII7 input.pdf output.txt
Isso deve impedir que pdftotext
imprima texturas literalmente, forçando-as a expandi-las em caracteres ASCII.