Eu descomprimi o pdf com mutool clean
e dei uma olhada. O problema parece ser que, como descrito na esta pergunta sobre o stackoverflow , é difícil usar a codificação unicode para o fontes. Por esse motivo, as fontes que o PDF contém usam uma codificação diferente. No entanto, ele também contém /ToUnicode
de objetos para cada fonte com um mapeamento complicado dos glifos de fonte para os caracteres unicode.
Agora, muitos visualizadores de PDF (como por exemplo, xpdf
no Linux) parecem não prestar atenção a esse mapeamento complicado (ou pelo menos não a um mapeamento com tal complexidade, embora possam trabalhar em mapeamentos mais simples), é por isso que você recebe lixo ao tentar copiar e colar. No entanto, com outros visualizadores de PDF (como mupdf
), isso funciona, como confirmei.
Portanto, o problema está localizado no visualizador de PDF, não no documento. Além disso, os PDFs e o unicode não combinam tão bem, como você pode ver pelos meios complicados necessários para fazer a tradução.
Possíveis soluções: (1) pressionar os desenvolvedores de visualizadores de PDF a oferecer suporte total a \ToUnicode
mappings. Talvez conserte você mesmo para os de código aberto. (2) Promova o uso de um visualizador de PDF específico que funcione com os mapeamentos. (3) Tente usar fontes dentro do PDF onde a codificação do glifo corresponde à codificação unicode. Isso parece possível com pontos de código unicode de 16 bits (e os caracteres indianos parecem ser de 16 bits, até onde eu sei), mas não sei como isso funcionará ou qual aplicativo você deve usar para produzir esses PDFs .