O arquivo mobyposi.i
usa terminações de linha Mac antigas, ou seja, caracteres CR. Por quê? Eu não sei. Este arquivo é de 1993, talvez o autor quisesse ser Mac-friendly e pensava que os usuários do Unix e Windows poderiam se defender sozinhos. Ou talvez o autor tenha cometido um erro, o arquivo readme
declara que “o arquivo de vocabulário [tem] delimitadores CRLF (ASCII 13/10)”, enquanto os delimitadores são, na verdade, apenas CR.
As palavras e a parte da fala são separadas pelo byte D7₁₆ = 215₁₀ = 327₈. O caractere ×
que o Gedit mostra é o glifo correspondente a este byte na codificação Latin-1.
Para converter os terminais de linha em finais de linha (LF) do Unix e o separador de palavras / partes em :
, execute
LC_CTYPE=C tr '\r7' '\n:' <mobyposi.i >mobyposi.txt
dos2unix
não fez nada porque a entrada não tinha finais de linha do DOS. O Gedit detectou automaticamente um arquivo em uma codificação externa (detectou as novas linhas, detectou uma codificação de um único byte e escolheu o Latin-1 entre as muitas possibilidades porque foi configurado dessa forma). Menos não detecta automaticamente codificações estrangeiras, ele mostra como é o arquivo quando interpretado em sua localidade.