A resposta está na coluna "uni": essas fontes, especificamente a que foi usada para os parênteses, não possuem um mapeamento explícito para Unicode. É um problema difícil identificar o ponto de código mais correto para algum símbolo arbitrário.
Aqui estão links para alguns artigos de periódicos:
Todos eles codificam parênteses (e outros caracteres, como colchetes) incorretamente. No entanto, isso só é aparente ao tentar convertê-los em texto ou copiar e colar. Por exemplo, a primeira linha do corpo do primeiro artigo deve ser:
Proton exchange membrane fuel cells (PEMFCs) have received
Em vez disso, ao copiar e colar do Acrobat Reader, ele fornece
Proton exchange membrane fuel cells PEMFCs have received
E ao usar "Salvar como texto", é exibido
Proton exchange membrane fuel cells ^CPEMFCs�
have received
Onde o parêntese de abertura é ^C
, a sequência de controle 03 ASCII e o parêntese de fechamento é Unicode 65533, o caractere de substituição, seguido por uma nova linha.
Da mesma forma, pdf2txt
codifica como
Proton exchange membrane fuel cells 共PEMFCs兲 have received
(Unicode 20849 e 20850)
e pdftotext
codifica como
Proton exchange membrane fuel cells ͑PEMFCs͒ have received
(Unicode 849 e 850).
Há também Unicode 851 (͓), 852 (͔), 1003 (ϫ), 1011 (ϳ), 1015 (Ϸ), 8217 ('), 8211 (-), 8722 (-), 64257 (f , 64258 (fl) e o caractere de controle Ctrl-L (ASCII 12) na saída pdftotext
. Alguns deles podem ser normalizados para ASCII facilmente, mas alguns deles exigirão mapeamento manual, eu acho.
Minhas perguntas são:
Qual é a melhor maneira de corrigir isso? Eu vi algumas perguntas semelhantes, incluindo que usa um script para substituir os caracteres manipulados incorretamente , mas a configuração dos mapeamentos não é trivial e não corrige o PDF.
Por que diferentes leitores de PDF e PDF para utilitários de texto fornecem resultados tão diferentes?
Aqui estão as saídas de pdfinfo
e pdffonts
:
Title:
Subject:
Keywords:
Author:
Creator: XPP
Producer: Acrobat Distiller 6.0.1 (Windows)
CreationDate: Thu Mar 23 12:07:23 2006
ModDate: Sun Nov 4 12:48:02 2012
Tagged: no
Pages: 6
Encrypted: no
Page size: 657 x 855 pts
File size: 266467 bytes
Optimized: no
PDF version: 1.4
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Helvetica Type 1 no no no 89 0
Helvetica-Oblique Type 1 no no no 109 0
Helvetica-Bold Type 1 no no no 88 0
LFNLKJ+Times-Bold Type 1C yes yes no 63 0
LFNLLK+Times-Italic Type 1C yes yes no 64 0
LFNLMK+Times-Roman Type 1C yes yes no 65 0
LFNLML+MathematicalPi-Three Type 1C yes yes no 66 0
LFNLMM+MathematicalPi-One Type 1C yes yes no 67 0
LFNLMN+Universal-GreekwithMathPi Type 1C yes yes no 72 0
A resposta está na coluna "uni": essas fontes, especificamente a que foi usada para os parênteses, não possuem um mapeamento explícito para Unicode. É um problema difícil identificar o ponto de código mais correto para algum símbolo arbitrário.