O problema já está no documento original, na forma como foi criado.
Parece que a apresentação original foi criada com o PowerPoint (o que mais…) no Mac (bem, a apresentação pode ter sido criada no Windows e depois trazida para o Mac para criar o PDF). Nenhum OCR envolvido.
A criação de PDF ocorreu usando as ferramentas da Apple, e parece que essas ferramentas têm problemas com ligaduras. Em vez de usar o caractere Ligadura do arquivo de fonte "principal", ele cria outro subconjunto contendo o caractere de ligadura, mas não codifica adequadamente o código Unicode e o resultado é que a transposição da codificação para a codificação de fonte "principal" leva à personagem 8.
Como todos sabemos, em PDF, o texto é um conjunto de "palavras" colocadas em uma tela, onde as "palavras" são separadas por espaço em branco. A conexão entre as "palavras" para formar uma frase não existe no PDF básico. Para copiar, o visualizador de PDF faz algumas heurísticas para determinar se essas "palavras" pertencem ou não, e / ou usa as informações da estrutura (se presentes). A lógica do Chrome é diferente da lógica do Acrobat e é assim que as discrepâncias aparecem.
Na verdade, o Acrobat XI tem uma opção no menu de contexto da seleção "Copiar com formatação", e essa pista (depois de colar no BBEdit) para:
"Training"
"1. Collect a set of representa8ve training documents"
Esta opção aparentemente usa mais lógica para criar sentenças. Mas a ligadura está errada, porque não pode ser recriada corretamente.
Veredicto, PDF mal criado leva a discrepâncias ao tentar redefinir conteúdos com diferentes visualizadores de PDF…