Eu lutei com isso hoje também.
No meu caso, o problema era com letras alemãs como "ä, ö, ü" ...
Eu consertei definindo TODAS as configurações de idioma para UTF-8.
Você pode ver um tutorial aqui:
Estou tentando baixar um site inteiro usando wget
e esse é o comando que uso:
wget --recursive --no-clobber --page-requisites --convert-links --domains example.com --no-parent http://www.example.com/en/
Está funcionando bem, mas há um problema. Existem arquivos (principalmente imagens) cujo nome contém caracteres chineses como este:
Após o download, o arquivo foi salvo com este nome:
??%96页主KV3.jpg
E é endereçado na página html como este e, portanto, emitindo um erro 404:
�%2596页主KV3.jpg
Eu me pergunto como posso evitar essa inconsistência?!
Eu lutei com isso hoje também.
No meu caso, o problema era com letras alemãs como "ä, ö, ü" ...
Eu consertei definindo TODAS as configurações de idioma para UTF-8.
Você pode ver um tutorial aqui:
Tags wget character-encoding