Como obter caracteres Unicode CJK de um PDF que usa caracteres de uso privado suplementares?

1

Tenho vários documentos PDF (como este ) que parecem ser escrito usando ideogramas chineses padrão, mas quando extraio o texto, verifica-se que ele é codificado usando caracteres das áreas de uso privado suplementares do Unicode.

Existe alguma maneira confiável de mapear os caracteres de uso privado de volta para os caracteres CJK apropriados?

    
por Ben 13.10.2015 / 17:51

1 resposta

0

O fluxo geral é provavelmente

  • Extrair fonte do PDF
  • Tente comparar a fonte com a codificação conhecida diferente e veja se é uma dessas
  • Ou, alternativamente, pode ser algo realmente usado em particular
  • Faça um relacionamento inverso verificando a tabela de conversão se souber qual codificação ela é, caso contrário, trabalhe com a fonte extraída em pdf
por 14.11.2017 / 02:26