Por padrão, pdftotext
gera dados unicode (UTF-8). Se o seu terminal ou editor de texto não suportar UTF-8, ligaduras como "fi" e "fl" (que podem ser representadas como um único caractere em unicode) aparecerão estranhamente, como você notou.
A correção simples é informar pdftotext
para saída ASCII em vez de unicode:
pdftotext -enc ASCII7 input.pdf output.txt
Isso deve produzir uma saída ASCII limpa, removendo sua necessidade de limpá-lo manualmente depois.