Cortando e colando caracteres vietnamitas de um PDF

2

Estou tentando copiar / colar um monte de texto vietnamita de um documento PDF para o Notepad ++ (ou qualquer coisa, nada funciona). O texto colado é diferente do texto de origem. Qual seria a melhor maneira de corrigir isso?

Por exemplo:

Texto de origem: (Veja a captura de tela para o texto de origem)

Texto colado: Salada de papaia ~ GÕi ñu ñû Tôm

Muito obrigado.

Editar: parece que, se a fonte for um documento do Word, ela copia & pastas como esperado. PDF é a questão aqui.

    
por Mahdi.Montgomery 19.01.2012 / 23:45

2 respostas

6

É porque a codificação usada no PDF é arbitrária.

De Alguns PDF em vietnamita I encontrado nos intertubes

" Codificação: Personalizada " provavelmente significa uma codificação (aleatória) feita para sua própria conveniência pelo programa que produziu este PDF.

" Embedded Subset " significa que o programa não precisou de um grande número de caracteres desta fonte, escolhendo apenas os poucos necessários e organizando-os em ordem aparentemente aleatória (talvez a ordem do programa) encontrei no texto) e a codificação recém-inventada é baseada nesta ordenação.

Não são realmente "personagens". Basicamente, o PDF não tem mais nenhuma informação universalmente significativa sobre "qual personagem" ele possui. Apenas tem um grupo indexado de formas e uma lista de posições e tamanhos onde exibe essas formas indexadas.

Wikipédia diz

CID-keyed fonts may be made without reference to a character collection by using an "identity" encoding, such as Identity-H (for horizontal writing) or Identity-V (for vertical). Such fonts may each have a unique character set, and in such cases the CID number of a glyph is not informative; generally the Unicode encoding is used instead, potentially with supplemental information.

Então você pode tentar ver se faz sentido na codificação UTF-16 BE.

    
por 20.01.2012 / 00:00
-1

Eu encontrei uma solução que funcionou para mim - embora não possa explicar por quê. Quando abri o PDF no Acrobat, não consegui copiar e colar os caracteres vietnamitas. No entanto, se eu abrir o PDF na versão do aplicativo de visualização (eu tenho a versão 5.5.3 (719.31)) no meu Mac, eu poderia copiar e colar sem nenhum problema.

    
por 25.11.2013 / 21:59