Copiando caracteres chineses do PDF

4

Estou em um laptop com Windows 7, que acredito que vem pré-instalado com todos os pacotes de idiomas. Eu posso ver os caracteres chineses sem problemas e normalmente posso copiá-los bem. (Do navegador para o Microsoft Office funciona muito bem). Tenho muitos PDFs com caracteres chineses - sempre que tento copiar e colá-los em outro programa (como um navegador, Microsoft Office, etc.), acabei de receber caracteres estranhos, como:

,ô t¯ıng wˇo shu¯o listen to me

Isto está copiando uma linha. É nesta ordem: caracteres chineses, Pinyin (chinês no alfabeto latino), e depois a tradução em inglês.

O Pinyin também está ficando confuso, já que as marcas tonais (acentos) de cada letra estão se movendo para um espaço próprio.

Alguma idéia de como corrigir isso?

    
por Kevin 29.11.2011 / 02:47

1 resposta

2

Pelo que vejo em seu texto de amostra, o arquivo PDF não contém a representação Unicode do texto em chinês. Em vez disso, ele provavelmente usa uma fonte especial incorporada para representar os caracteres chineses e fontes normais para representar os sotaques chineses Pinyin:

,ô t¯ıng wˇo shu¯o

deve ser

聽我說 tīng wǒ shuō

Espero que você veja que os sinais diacríticos (t ī ng w ǒ shu ō ) são construídos a partir de vários caracteres colocados um em cima do outro, enquanto os ideogramas não são mostrados. Em vez de U+01D2 para ǒ , você recebe U+02C7 para ˇ e o .

Você pode verificar facilmente se é possível copiar e colar sinais chineses armazenados como Unicode fazendo o download e jogando com este arquivo . Este é um PDF Unicode correto e não tenho problemas para copiar e colar os caracteres entre aplicativos compatíveis com Unicode em meu sistema Windows 7 Professional (MUI alemão).

Se isso não funcionar, você precisa instalar o suporte para fontes chinesas em seu sistema.

Se funcionar, você provavelmente encontrará uma solução alternativa inspecionando seu arquivo PDF e procurando pelas fontes incorporadas. Tente encontrar essas fontes na Internet e instalá-las no seu sistema - então você verá mais do que apenas alguns sinais sem sentido. No entanto, isso só se aplica aos sinais originais chineses; os pinyin não podem ser resgatados.

    
por 21.12.2011 / 17:17