O texto em PDF fica sem sentido na cópia, mas exibe

4

Somos um pequeno grupo que está promovendo a disseminação do Unicode na Índia (aqui as codificações legadas estão profundamente arraigadas). Mas eu tenho um problema quando eu converto um documento em texto unicode em qualquer linguagem índica para o formato PDF. O texto é exibido como pretendido, mas na cópia, o conteúdo é parcialmente alterado.

Estou usando o inDesign CC para compor um Win 7. Posso exportar para o formato epub bem. Mas o PDF exportado tem esse problema. Eu também tentei imprimir em impressora Adobe PDF e PrimoPDF, só piorou. Ao verificar os PDFs na Internet, verifica-se que este problema existe em todos os PDFs indiculares codificados como unicode (e provavelmente todos os scripts complexos do leste asiático). Isso é um problema nas especificações do PDF?

Confira o PDF aqui link

Copie qualquer texto e combine com o original, você verá os caracteres serem substituídos por outros caracteres, o espaço em branco desnecessário foi inserido.

Agora estamos promovendo o unicode com base no fato de facilitar a cópia e a indexação / pesquisa. Este problema destrói totalmente isso. Alguma idéia?

    
por coldbreeze16 15.09.2016 / 11:56

1 resposta

4

Eu descomprimi o pdf com mutool clean e dei uma olhada. O problema parece ser que, como descrito na esta pergunta sobre o stackoverflow , é difícil usar a codificação unicode para o fontes. Por esse motivo, as fontes que o PDF contém usam uma codificação diferente. No entanto, ele também contém /ToUnicode de objetos para cada fonte com um mapeamento complicado dos glifos de fonte para os caracteres unicode.

Agora, muitos visualizadores de PDF (como por exemplo, xpdf no Linux) parecem não prestar atenção a esse mapeamento complicado (ou pelo menos não a um mapeamento com tal complexidade, embora possam trabalhar em mapeamentos mais simples), é por isso que você recebe lixo ao tentar copiar e colar. No entanto, com outros visualizadores de PDF (como mupdf ), isso funciona, como confirmei.

Portanto, o problema está localizado no visualizador de PDF, não no documento. Além disso, os PDFs e o unicode não combinam tão bem, como você pode ver pelos meios complicados necessários para fazer a tradução.

Possíveis soluções: (1) pressionar os desenvolvedores de visualizadores de PDF a oferecer suporte total a \ToUnicode mappings. Talvez conserte você mesmo para os de código aberto. (2) Promova o uso de um visualizador de PDF específico que funcione com os mapeamentos. (3) Tente usar fontes dentro do PDF onde a codificação do glifo corresponde à codificação unicode. Isso parece possível com pontos de código unicode de 16 bits (e os caracteres indianos parecem ser de 16 bits, até onde eu sei), mas não sei como isso funcionará ou qual aplicativo você deve usar para produzir esses PDFs .

    
por 15.09.2016 / 14:17