file
informa "Texto ASCII estendido não ISO" porque detecta que isso é:
- provavelmente um arquivo de "texto" da falta de caracteres de controle (valores de byte de 0 a 31) diferentes de quebras de linha;
- “extended-ASCII” porque existem caracteres fora do intervalo ASCII (valores de bytes ≥128);
- “não ISO” porque há caracteres na faixa de 128 a 159 ( ISO 8859 reserva esse intervalo para controle caracteres).
Você tem que descobrir em qual codificação esse arquivo parece estar. Você pode tentar o reconhecimento automático da Enca . Você pode precisar empurrá-lo na direção certa, dizendo em que idioma o texto é.
enca x.txt
enca -L polish x.txt
Para converter o arquivo, passe a opção -x
: enca -L polish x.txt -x utf8 >x.utf8.txt
Se você não puder ou não quiser usar o Enca, poderá adivinhar a codificação manualmente. Um pouco de olhar em volta me disse que este é o texto em polonês e as palavras são trwały, stały, usuważ, então estamos procurando uma tradução em que ³
→ ł
e æ
→ ż
. Isso parece latin-2 ou latin-10 ou mais provável (dado" não-ISO " CP1250 que você está vendo como latin1 Para converter o arquivo para UTF-8, você pode usar < href="http://recode.progiciels-bpi.ca/index.html"> recode ou iconv .
recode CP1250..utf8 <x.txt >x.utf8.txt
iconv -f CP1250 -t UTF-8 <x.txt >x.utf8.txt