Eu estou trabalhando na liberação de um dicionário escrito no wordperfect 5 para texto simples. O ideal é que eu termine com um arquivo UTF-8 com cada entrada em sua própria linha e os campos delimitados por guias, mas eu divago.
O problema que tenho é que o dicionário inclui muitos caracteres não-ascii, que foram compostos com (potencialmente múltiplos) overstrikes, alguns dos quais contêm formatação dos caracteres overstruck (?). Existe uma maneira de obter a lista completa de overstrikes usados em um documento, juntamente com seus caracteres componentes? A menos que eu esteja errado, este é um pré-requisito necessário para mover os overstrikes para unicode por meio de um script ou alguma outra ferramenta de conversão.
Tags unicode wordperfect