Ao importar o exemplo para Inkscape , selecionar "Importar texto como texto" também me fornece uma letra minúscula "the". O mesmo vale para a primeira letra de todas as outras frases.
Ele também mostra alguns espaços ímpares após essas letras. Esse mesmo espaçamento ímpar está presente após as primeiras letras em outros fragmentos de texto, como após as primeiras letras de uma lista de 4 itens na segunda coluna. Essas letras, na verdade, também aparecem em letras minúsculas no Inkscape, mas são maiúsculas em uma visualização normal de PDF.
AspropriedadesdodocumentomostramqueoPDFfoicriadousando"Arquivos combinados do Adobe Acrobat 8.1". Eu acho que o aplicativo vinculado algo como pequenas capitais de um documento importado para formas de vetor de letras maiúsculas normais?
Em geral, algumas outras opções:
-
Se o PDF for um documento digitalizado, então alguns softwares de digitalização não só incluem a imagem digitalizada (que é o que você vê), mas também executam OCR para incluir texto oculto no mesmo documento (que é o que você pesquisa e copia). Mas muitas vezes esse OCR não é perfeito. Para obter melhores resultados, o OCR geralmente usa um dicionário de verificação ortográfica bem † .
É difícil imaginar que o OCR confunda
T
parat
, mas se ele interpretarT
comoI
(letra maiúscula i) talvez depois disso um verificador ortográfico tenha alteradoIhe
parathe
. -
Se não for um documento digitalizado, talvez o documento de origem tenha usado letras maiúsculas para a formatação? Não tenho certeza se o PDF suporta isso, mas o texto simples (sem qualquer formatação) pode, de fato, ser "o", não "O".
† Como resultado, o OCR pode, às vezes, corrigir erros que estão realmente presentes no texto original.