Como ler o arquivo com a codificação iso-8859-1 latin1?

1

Qual pacote devo instalar para poder ler arquivos com codificação iso-8859-1 latin1 ?

Atualmente, vejo apenas caracteres estranhos em vez de texto.

% locale

LANG=en_US.UTF-8
LANGUAGE=
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=
    
por evfwcqcg 25.03.2013 / 17:27

1 resposta

2

A codificação latin1 é "principalmente" compatível com UTF-8, uma vez que ambas as codificações são superconjuntos de ASCII. Isso significa que você deve ver letras normais (a-z), mas não diacríticas (é, è, e assim por diante). Vamos tentar entender qual é a codificação real do seu arquivo.

Primeiro, o comando file às vezes pode detectar a codificação. Basta usar:

$ file weird_file

Você pode obter weird_file: ISO-8859 text para latin1, weird_file: UTF-8 Unicode text para UTF-8 ou outra coisa. Agora, se você determinou que é latin1, a melhor maneira de exibi-lo é abrir um editor, como o gedit, e escolher a codificação correta ao abrir o arquivo. Se você quiser converter o arquivo para UTF-8, você pode então 'Salvar como' e pedir UTF-8.

Se você ainda não conhece a codificação, tente abrir o documento com o Libre Office, geralmente é bom para a detecção. Também é possível que seu arquivo esteja corrompido (por exemplo, texto UTF-8 interpretado como latin1 e salvo como UTF-8) ou, mais provavelmente, que nunca contenha texto. Sinta-se à vontade para enviá-lo para que possamos inspecioná-lo.

    
por Jennifer Wilson 25.03.2013 / 18:06