Por que este PDF parece codificar corretamente os parênteses, mas não ao usar o pdftotext ou copiar e colar?

4

Aqui estão links para alguns artigos de periódicos:

Todos eles codificam parênteses (e outros caracteres, como colchetes) incorretamente. No entanto, isso só é aparente ao tentar convertê-los em texto ou copiar e colar. Por exemplo, a primeira linha do corpo do primeiro artigo deve ser:

Proton exchange membrane fuel cells (PEMFCs) have received

Em vez disso, ao copiar e colar do Acrobat Reader, ele fornece

Proton exchange membrane fuel cells PEMFCs have received

E ao usar "Salvar como texto", é exibido

Proton exchange membrane fuel cells ^CPEMFCs�
have received 

Onde o parêntese de abertura é ^C , a sequência de controle 03 ASCII e o parêntese de fechamento é Unicode 65533, o caractere de substituição, seguido por uma nova linha. Da mesma forma, pdf2txt codifica como

Proton exchange membrane fuel cells 共PEMFCs兲 have received

(Unicode 20849 e 20850) e pdftotext codifica como

Proton exchange membrane fuel cells ͑PEMFCs͒ have received

(Unicode 849 e 850).

Há também Unicode 851 (͓), 852 (͔), 1003 (ϫ), 1011 (ϳ), 1015 (Ϸ), 8217 ('), 8211 (-), 8722 (-), 64257 (f , 64258 (fl) e o caractere de controle Ctrl-L (ASCII 12) na saída pdftotext . Alguns deles podem ser normalizados para ASCII facilmente, mas alguns deles exigirão mapeamento manual, eu acho.

Minhas perguntas são:

  1. Qual é a melhor maneira de corrigir isso? Eu vi algumas perguntas semelhantes, incluindo que usa um script para substituir os caracteres manipulados incorretamente , mas a configuração dos mapeamentos não é trivial e não corrige o PDF.

  2. Por que diferentes leitores de PDF e PDF para utilitários de texto fornecem resultados tão diferentes?

Aqui estão as saídas de pdfinfo e pdffonts :

Title:          
Subject:        
Keywords:       
Author:         
Creator:        XPP
Producer:       Acrobat Distiller 6.0.1 (Windows)
CreationDate:   Thu Mar 23 12:07:23 2006
ModDate:        Sun Nov  4 12:48:02 2012
Tagged:         no
Pages:          6
Encrypted:      no
Page size:      657 x 855 pts
File size:      266467 bytes
Optimized:      no
PDF version:    1.4

name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Helvetica                            Type 1            no  no  no      89  0
Helvetica-Oblique                    Type 1            no  no  no     109  0
Helvetica-Bold                       Type 1            no  no  no      88  0
LFNLKJ+Times-Bold                    Type 1C           yes yes no      63  0
LFNLLK+Times-Italic                  Type 1C           yes yes no      64  0
LFNLMK+Times-Roman                   Type 1C           yes yes no      65  0
LFNLML+MathematicalPi-Three          Type 1C           yes yes no      66  0
LFNLMM+MathematicalPi-One            Type 1C           yes yes no      67  0
LFNLMN+Universal-GreekwithMathPi     Type 1C           yes yes no      72  0
    
por Nathaniel M. Beaver 01.07.2013 / 16:21

1 resposta

2

A resposta está na coluna "uni": essas fontes, especificamente a que foi usada para os parênteses, não possuem um mapeamento explícito para Unicode. É um problema difícil identificar o ponto de código mais correto para algum símbolo arbitrário.

    
por 08.12.2017 / 07:35