O texto em PDF muda de maiúsculas quando copiado para o Bloco de Notas

1

Por exemplo.

No PDF, é O , mas quando copio para o bloco de notas, ele cola o . Como copiar texto com o mesmo caso?

por exemplo: ("o" é apenas por exemplo)

Isto é PDF

The Superman xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x to you x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
The xxxxxx xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x xxxxxxxx x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx

Este é um texto colado (veja "do segundo parágrafo")

The Superman xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x to you x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
the xxxxxx xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x xxxxxxxx x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
    
por metal gear solid 01.04.2010 / 15:50

1 resposta

1

Ao importar o exemplo para Inkscape , selecionar "Importar texto como texto" também me fornece uma letra minúscula "the". O mesmo vale para a primeira letra de todas as outras frases.

Ele também mostra alguns espaços ímpares após essas letras. Esse mesmo espaçamento ímpar está presente após as primeiras letras em outros fragmentos de texto, como após as primeiras letras de uma lista de 4 itens na segunda coluna. Essas letras, na verdade, também aparecem em letras minúsculas no Inkscape, mas são maiúsculas em uma visualização normal de PDF.

AspropriedadesdodocumentomostramqueoPDFfoicriadousando"Arquivos combinados do Adobe Acrobat 8.1". Eu acho que o aplicativo vinculado algo como pequenas capitais de um documento importado para formas de vetor de letras maiúsculas normais?

Em geral, algumas outras opções:

  • Se o PDF for um documento digitalizado, então alguns softwares de digitalização não só incluem a imagem digitalizada (que é o que você vê), mas também executam OCR para incluir texto oculto no mesmo documento (que é o que você pesquisa e copia). Mas muitas vezes esse OCR não é perfeito. Para obter melhores resultados, o OCR geralmente usa um dicionário de verificação ortográfica bem .

    É difícil imaginar que o OCR confunda T para t , mas se ele interpretar T como I (letra maiúscula i) talvez depois disso um verificador ortográfico tenha alterado Ihe para the .

  • Se não for um documento digitalizado, talvez o documento de origem tenha usado letras maiúsculas para a formatação? Não tenho certeza se o PDF suporta isso, mas o texto simples (sem qualquer formatação) pode, de fato, ser "o", não "O".

Como resultado, o OCR pode, às vezes, corrigir erros que estão realmente presentes no texto original.

    
por 02.04.2010 / 20:07