Como usar o wget no site com caracteres chineses

1

Eu estou tentando gerar uma versão estática de um site dinamicamente controlado usando o wget.

O problema é que quando faço isso em um site com caracteres chineses, em vez de uma página de caracteres chineses bem formados, acabo com um absurdo ascii confuso, mas ainda assim bem formatado.

Este é o comando que estou executando atualmente:

wget -P 1 -mpck --user-agent="" -e robots=off --wait 1 -E http://awebsite.com

Obrigado.

    
por Xavier Hutchinson 26.03.2017 / 09:15

2 respostas

1

Parece que você quer dizer que, se você navegar até o site, tudo está bem, mas se você baixar a página e apontar seu navegador para o arquivo baixado, está mutilado. Duas sugestões:

  • Verifique a fonte HTML e veja se a codificação está definida nela; pode ser definido apenas como metadados HTTP.
  • Você também está baixando a folha de estilo? Experimente a opção -p .
por 26.03.2017 / 17:00
1

Tente adicionar --header='Accept-Language: zh'

por exemplo,

wget -P 1 -mpck --user-agent="" -e robots=off --wait 1 -E --header='Accept-Language: zh' http://awebsite.com

Se isso não funcionar, tente verificar o código 'Content-Language' que aparece nos cabeçalhos HTTP com:

curl -I http://awebsite.com

    
por 26.03.2017 / 17:31

Tags