O Word não converte caracteres não Unicode conforme o esperado

2

Nossos usuários estão enfrentando um problema muito desencorajador em relação a como o MS Word (no Windows) lida com caracteres não-unicode. Esse problema é confirmado no Word 2007 e no Word 2010 Beta usando o Windows XP SP3; Eu suspeito que funciona da mesma maneira em 2003.

Problema:

  1. Um usuário cria um documento usando uma fonte não-unicode, inserindo caracteres para representar notações científicas. Por exemplo, ele entra em um Mu (µ). Nota: colei em um Mu compatível com Unicode para referência.
  2. O usuário abre seu documento e tenta copiar / colar esse caractere não unicode que representa um Mu em um navegador da Web para entrada em nosso sistema. Cola como um personagem não reconhecido. Isso é esperado.
  3. O usuário abre seu documento, seleciona o caractere não unicode e ajusta sua fonte para "Arial Unicode MS", salvando o documento. Ele fecha / reabre o documento para uma boa medida. Uma vez reaberto, ele copia o que deve ser um Mu unicode e o cola no navegador da web. Ainda é representado como um personagem não reconhecido.
  4. O usuário cria um novo documento, define a fonte como "Arial Unciode MS" e cria um arquivo Mu. Ele copia esse Mu para o navegador da Web e cola em Unicode, como esperado.

Conclusão:

O Word não está realmente convertendo caracteres não unicode em caracteres unicode quando deveria, quando uma fonte unicode é selecionada. Em vez disso, ele está fazendo uma estimativa melhor por razões de exibição, mas não faz nenhuma conversão real.

Como eu supero esse problema?

  • Posso alterar algumas configurações no Word para forçar uma conversão? Preferível.
  • Existe um aplicativo "limpo" ou uma macro do Word que fará isso?
  • Outras soluções?

Notas adicionais:

  • Digitar novamente os documentos afetados usando unicode não é uma opção
  • Isso não é um problema no Mac OS X usando a versão mais recente do Word. Um caso de amostra como em (3) resulta em um Mu unicode sendo colado no navegador.

Por favor, ajude!

    
por Hello71 13.07.2010 / 20:19

2 respostas

2

Tente usar Paste Special ; deve haver uma opção para o texto Unicode.

Observe que, se o documento de origem foi criado com uma fonte Symbol, isso não ajudará. O Windows realmente não sabe que o caractere está relacionado a um caractere Unicode específico, as fontes de símbolos foram criadas antes do Unicode para atender a uma necessidade e as duas não são intercambiáveis.

    
por 13.07.2010 / 20:30
1

Um processo demorado, mas eu normalmente converto esses arquivos em imagens e depois procuro essas imagens através de qualquer software OCR. Isso ajuda. Mas eu estava procurando uma opção ainda melhor.

    
por 29.11.2010 / 07:02