Por que o Google Chrome e o Adobe Acrobat Pro copiam texto diferente para a área de transferência quando eu seleciono o mesmo texto no PDF?

0

No Adobe Acrobat Pro XI, pressionando Ctrl + C quando o texto a seguir é selecionado

copiaoseguinteparaaáreadetransferência:

Training1.Collectasetofrepresenta8vetrainingdocuments

NoGoogleChrome,pressionandoCtrl+Cquandootextoaseguiréselecionado

copia o seguinte para a área de transferência:

Training+
1. Collect+a+set+of+representa8ve+training+documents

Eu uso o Windows 7 SP1 x64 Ultimate. O arquivo PDF pode ser acessado aqui (as capturas de tela acima mostram a página 16).

Por que o Google Chrome e o Adobe Acrobat Pro copiam textos diferentes para a área de transferência quando eu seleciono o mesmo texto no PDF?

    
por Franck Dernoncourt 29.11.2014 / 18:11

2 respostas

2

O problema já está no documento original, na forma como foi criado.

Parece que a apresentação original foi criada com o PowerPoint (o que mais…) no Mac (bem, a apresentação pode ter sido criada no Windows e depois trazida para o Mac para criar o PDF). Nenhum OCR envolvido.

A criação de PDF ocorreu usando as ferramentas da Apple, e parece que essas ferramentas têm problemas com ligaduras. Em vez de usar o caractere Ligadura do arquivo de fonte "principal", ele cria outro subconjunto contendo o caractere de ligadura, mas não codifica adequadamente o código Unicode e o resultado é que a transposição da codificação para a codificação de fonte "principal" leva à personagem 8.

Como todos sabemos, em PDF, o texto é um conjunto de "palavras" colocadas em uma tela, onde as "palavras" são separadas por espaço em branco. A conexão entre as "palavras" para formar uma frase não existe no PDF básico. Para copiar, o visualizador de PDF faz algumas heurísticas para determinar se essas "palavras" pertencem ou não, e / ou usa as informações da estrutura (se presentes). A lógica do Chrome é diferente da lógica do Acrobat e é assim que as discrepâncias aparecem.

Na verdade, o Acrobat XI tem uma opção no menu de contexto da seleção "Copiar com formatação", e essa pista (depois de colar no BBEdit) para:

"Training"
"1.    Collect a set of representa8ve training documents"

Esta opção aparentemente usa mais lógica para criar sentenças. Mas a ligadura está errada, porque não pode ser recriada corretamente.

Veredicto, PDF mal criado leva a discrepâncias ao tentar redefinir conteúdos com diferentes visualizadores de PDF…

    
por 30.11.2014 / 07:23
2

Você pode obter o pdf de vários tipos de documentos de origem. Se você começar com algo salvo diretamente de um processador de texto, o arquivo PDF conterá um texto agradável e editável. Se você começar com uma imagem de uma página, o pdf contém uma imagem, que não é editável sem o OCR. Entre são documentos typeset. Eles contêm texto, mas tudo é formatado com dificuldade para controlar a aparência precisa na página. Tentar editá-los ou até mesmo limpá-los para edição pode ser um pesadelo.

Neste documento, o espaçamento entre palavras é controlado com guias (ou caracteres especiais interpretados como guias), em vez de espaços. O estranho "8" no representativo é provavelmente devido ao uso de uma ligadura (codificação especial ou par de kerning para apertar o espaçamento entre o "t" e "i"). Não seria surpreendente se diferentes espectadores lidassem com os códigos de controle de composição de forma diferente.

    
por 29.11.2014 / 19:23