Problema ao inserir nova linha entre estranhos caracteres html no arquivo html - UTF-8 [closed]

1

Eu uso o seguinte comando para inserir novas linhas entre os caracteres em um arquivo de texto para gerar uma única coluna de caracteres:

sed 's/./&\n/g' file.txt

Isso funciona para caracteres dentro de ASCII; por exemplo, de:

123

para:

1

2

3

Não consigo fazer nada funcionar com caracteres multibyte, como Õöþùüê¡£¢¥Ÿ£€Ÿ£¡œãòá碜áòá , que aparecem em páginas da Web que eu baixo como HTML.

Alguma sugestão?

Isso é parte de uma solução em que estou trabalhando para outra pergunta que publiquei - estou tentando gerar um script para converter esses caracteres em inglês, mas preciso colocar cada caractere em uma linha própria.

    
por speld_rwong 14.02.2017 / 17:52

1 resposta

1

Any suggestions?

Primeiro de tudo, isso funciona bem para mim:

echo "Õöþùüê¡£¢" | sed 's/./&\n/g'
Õ
ö
þ
ù
ü
ê
¡
£
¢

Dado isso locale :

locale
LANG=sv_SE.UTF-8
LANGUAGE=
LC_CTYPE="sv_SE.UTF-8"
LC_NUMERIC="sv_SE.UTF-8"
LC_TIME="sv_SE.UTF-8"
LC_COLLATE="sv_SE.UTF-8"
LC_MONETARY="sv_SE.UTF-8"
LC_MESSAGES="sv_SE.UTF-8"
LC_PAPER="sv_SE.UTF-8"
LC_NAME="sv_SE.UTF-8"
LC_ADDRESS="sv_SE.UTF-8"
LC_TELEPHONE="sv_SE.UTF-8"
LC_MEASUREMENT="sv_SE.UTF-8"
LC_IDENTIFICATION="sv_SE.UTF-8"
LC_ALL=

Meu palpite é que seu locale é não UTF-8. Tente definir seu locale para UTF-8 e tente novamente.

    
por 14.02.2017 / 18:01