Eu tenho um texto em chinês simplificado, que, quando lido como UTF-8, começa com ´ÓºÜ¾ÃÒÔÇ°¿ªÊ¼
, que a ferramenta on-line de MandarinTools (o primeiro resultado de pesquisa para o Correção do Email Chinês Corrompido ) corrige para o 从很久以前开始
correto, mas não está claro como ele foi corrigido naquela. A partir do uso da ferramenta on-line e de um editor hexadecimal, sei que cada caractere é codificado como comprimento fixo de 32 bits:
c2b4 c393 从
c2ba c39c 很
c2be c383 久
c392 c394 以
c387 c2b0 前
c2bf c2aa 开
c38a c2bc 始
Isso também mostra que um caractere é codificado como duas palavras de 16 bits no intervalo c2 ** - c3 **. Com UTF-16, a primeira palavra de 16 bits é sempre 0 para esses caracteres. O UTF-8 usa apenas 24 bits por caractere para esses e a Página de códigos 936 usa apenas 16 bits por caractere aqui. Qual método posso usar para determinar a conversão de codificação correta?
representação utf-8:
e4bb 8e 从
e5be 88 很
e4b9 85 久
e4bb a5 以
e589 8d 前
e5bc 80 开
e5a7 8b 始
representação em cp936:
b4d3 从
badc 很
bec3 久
d2d4 以
c7b0 前
bfaa 开
cabc 始