Problemas com Unicode, charset e mistura de fontes.
Parece que você tem algum problema com um mix de unicode / charset / font no documento original.
Os caracteres gregos não estão na primeira posição 127 da tabela ascii.
Seguindo o padrão Unicode [ 1 ] você deve encontrá-los no intervalo 0370-03FF
[2 ] . Por exemplo, a letra alfa é o unicode U+03B1
[ 3 ] . Como referências segue o padrão ISO / IEC_8859-7 [ 4 ] chamado Windows-28597 da Microsoft.
O problema é que existe até uma fonte (ou mais de uma) que grava o a
como α
, mantendo dentro do mesmo código interno (o 97). Por exemplo, Symbol é uma das quatro fontes padrão disponíveis em todas as impressoras baseadas em PostScript (assim como nos documentos latex e pdf), criadas pela adobe e possuem uma representação interna diferente do unicode um [ 5 ] :
Symbol α β γ δ ε ζ η θ ι κ λ μ
Symbol* a b g d e z h q i k l m
Symbol ν ξ ο π ρ ς σ τ υ φ χ ψ ω
Symbol* n x o p r V s t u f c y w
*encoded as ASCII for older versions of the font
Veja a renderização com fontes diferentes na página desta wiki .
Esta fonte, no entanto, contém apenas o alfabeto grego completo e não acentuado. Então, pode acontecer quando em um documento há uma mistura de diferentes fontes e charset que na tradução algo se perde e você acaba tendo uma representação híbrida.
Outras referências
- O zoológico incrível da Codificação de caracteres [ 6 ] .
- Unicode [ 1 ] página no wiki.
- Uma tabela [ 2 ] dos intervalos unicode apresentados.
- O padrão ISO / IEC_8859-7 [4 ]
- Apenas para o caso de você não se sentir complicado o suficiente, também existem diferentes páginas de códigos: página de códigos 737 ou a menos comum página de códigos 869 .