Não é possível copiar caracteres não latinos do documento PDF

Question

Não é possível copiar caracteres não latinos do documento PDF

#1 resposta do (2 votos)
#2 resposta do (1 votos)
#3 resposta do (0 votos)
#4 resposta do (0 votos)
#5 resposta do (0 votos)
#6 resposta do (0 votos)

4

Eu tenho um arquivo pdf que contém alguns caracteres europeus não latinos. Se eu copiar algum texto com a ferramenta de destaque e colá-lo em outro programa (palavra, bloco de notas) - os caracteres 'especiais' não são transferidos corretamente (obtenho outros caracteres estranhos em seu lugar).

Eu tentei copiar o texto do Acrobat Reader e do Foxit.

Há algo que eu possa fazer aqui para copiar isso?

Obrigado

pdf unicode character-encoding

por UpTheCreek 07.01.2010 / 11:30

6 respostas

Tags pdf unicode character-encoding

O que eu posso aprender com o diálogo “O sistema recuperou-se de um erro grave”. Usando o Proxy Server para agir como arquivo hosts

score 2 · Answer 1

Documentos PDF normais contendo texto Unicode não armazenam o texto como caracteres - mas como referências aos glifos (formas de letra) nas fontes usadas. Quando incorporar fontes em um documento PDF As fontes Unicode também são geralmente convertidas pelo Acrobat em várias fontes menores - portanto, mesmo se você usar apenas uma fonte, essas referências podem ser para glifos em várias fontes menores, não para os glifos na fonte original.

Ao recortar e colar texto Unicode do Acrobat em outro aplicativo, o Acrobat precisa de informações suficientes para reconstruir os caracteres Unicode a partir das formas das letras. Se a fonte usada tiver glifos nomeados de acordo com a Convenção de nomenclatura do Adobe Glyph , o Acrobat poderá analisar esses nomes ( que também são armazenados no documento PDF) e reconstruir o texto Unicode. Infelizmente, existem muitas fontes Unicode, incluindo as fontes padrão do Windows, que não seguem essa convenção - portanto, isso pode não ser possível.

Os arquivos

PDF também garantem a tradução confiável do texto para o Unicode - portanto, você deve ser capaz de cortar e colar texto Unicode de um arquivo Tagged PDF .

Portanto, se você quiser evitar esse problema no futuro, ao criar um PDF a partir de um documento que contenha texto Unicode não-latino, sempre gere o arquivo PDF como um PDF marcado e tente usar apenas fontes criadas com glifos nomeados accoring ao Adobe Glyph Naming Convention. Isso garantirá que seus documentos em PDF Unicode sejam pesquisáveis e que o texr possa ser cortado e colado de forma confiável a partir deles.

score 1 · Answer 2

Talvez, na versão mais recente do PDF writer, o texto Unicode não possa ser incorporado como pontos de código, apenas os glifos das fontes de tipo aberto estão incorporados no documento PDF.

score 0 · Answer 3

A resposta mais provável é que o texto no documento PDF não contenha os caracteres corretos. O que você vê não é necessariamente o que você obtém com PDF, o texto do qual você copia e a imagem que você vê são duas coisas diferentes, e em muitos casos esse texto é apenas uma leitura OCR da imagem, o que provavelmente não reconhecer os caracteres não latinos.

score 0 · Answer 4

Parece que pode ser um problema de codificação. Certifique-se de que ambos os arquivos estejam configurados para uma codificação Unicode (provavelmente UTF-8). Não sei bem como fazer isso no Acrobat Reader, mas o Bloco de Notas e o Word permitem definir isso.

Consulte o link para obter mais informações sobre codificação.

score 0 · Answer 5

Eu tinha um PDF em chinês do qual não era possível copiar e colar os caracteres usando o Adobe Reader. No entanto, encontrei o sucesso abrindo o PDF no Adobe Acrobat Professional, em vez de no Reader.

score 0 · Answer 6

No meu caso, caracteres poloneses como ś, ć, ł, ê foram quebrados quando copiados do pdf.

Testei muitas opções. O único que funcionou muito bem foi o link .

Portanto, recomendamos que você o use se não quiser perder tempo tentando converter coisas com outras soluções.