Decodificar caracteres estranhos no arquivo de texto

1

Alguém me enviou um arquivo de texto. Embora eu possa ler a maior parte do documento, às vezes há caracteres incomuns. Quando abro no VIM, vejo < 92 > em seu lugar. Quando uso o gedit, vejo um caractere que parece um quadrado com dois zeros e 9 e 4 no quadrado.

Existe uma maneira de decodificar esses personagens engraçados de volta ao seu equivalente legível?

Eu também executei o seguinte no shell:

johncomputer> file --mime-encoding file.txt
johncomputer> file.txt: : utf-8

Então eu acho que é utf8 codificado.

Ah, e também, este é um documento de texto em que a maioria dos personagens é legível. Apenas alguns (não todos) dos caracteres acentuados estão aparecendo de forma estranha.

    
por John 10.05.2013 / 18:24

2 respostas

5

As chances são de que você vê como < 92 > e < 94 > são apóstrofo “inteligente” (encaracolado) do windows-1252 codificado e aspas duplas à direita “inteligente” . Eles podem ser praticamente qualquer coisa, é claro, mas em UTF-8, esses bytes não podem aparecer como "autônomos", apenas como o segundo byte de uma representação de vários bytes de um caractere,

    
por 10.05.2013 / 19:23
1

Você conhece a página de códigos usada pela pessoa que lhe enviou o arquivo? Qual é o idioma principal deles?

No Vim você pode recarregar o arquivo usando outra codificação com o comando

:e ++enc=cpXXX

Link para a dica relevante do vim

    
por 10.05.2013 / 18:36