Como obter o 'pdftotext' para imprimir texto em uma codificação legível?

2

Eu converti um arquivo PDF em um arquivo txt usando pdftotext . A título de exemplo, tenho a frase "Este é o primeiro estudo sobre a relevância funcional de", note que "primeiro", quando procuro esta sentença através de GATE, fico "primeiro" distorcida como "primeira". Também em "proteínas foram isoladas de células HEK293EBNA transf ectomialmente e purificadas por cromatografia de afinidade em um", algumas palavras que contêm um caractere parecem f mas também não são igualmente "proteínas foram isoladas de células hek293ebna transfocidas epissômica e puri¬ ¬ editado por cromatografia afiñnity em um ".

Como posso obter pdftotext para enviar texto em uma codificação legível?

    
por hamid 20.03.2015 / 16:29

1 resposta

3

Observe que, no texto que você colou, "fi" em "primeiro" e "ffi" em "afinidade" são ligaduras (múltiplos caracteres combinados em um único glyph). Presumivelmente, pdftotext imprime cada uma dessas ligaduras como único caractere, que as ferramentas que você usa para ler o texto não suportam.

Como uma pergunta de superusuário sugere, tente o seguinte:

pdftotext -enc ASCII7 input.pdf output.txt

Isso deve impedir que pdftotext imprima texturas literalmente, forçando-as a expandi-las em caracteres ASCII.

    
por 20.03.2015 / 16:48