Pelo que vejo em seu texto de amostra, o arquivo PDF não contém a representação Unicode do texto em chinês. Em vez disso, ele provavelmente usa uma fonte especial incorporada para representar os caracteres chineses e fontes normais para representar os sotaques chineses Pinyin:
,ô t¯ıng wˇo shu¯o
deve ser
聽我說 tīng wǒ shuō
Espero que você veja que os sinais diacríticos (t ī
ng w ǒ
shu ō
) são construídos a partir de vários caracteres colocados um em cima do outro, enquanto os ideogramas não são mostrados. Em vez de U+01D2
para ǒ
, você recebe U+02C7
para ˇ
e o
.
Você pode verificar facilmente se é possível copiar e colar sinais chineses armazenados como Unicode fazendo o download e jogando com este arquivo . Este é um PDF Unicode correto e não tenho problemas para copiar e colar os caracteres entre aplicativos compatíveis com Unicode em meu sistema Windows 7 Professional (MUI alemão).
Se isso não funcionar, você precisa instalar o suporte para fontes chinesas em seu sistema.
Se funcionar, você provavelmente encontrará uma solução alternativa inspecionando seu arquivo PDF e procurando pelas fontes incorporadas. Tente encontrar essas fontes na Internet e instalá-las no seu sistema - então você verá mais do que apenas alguns sinais sem sentido. No entanto, isso só se aplica aos sinais originais chineses; os pinyin não podem ser resgatados.