Isso pode ser causado pelos caracteres acentuados, como você suspeita. Este bug aberto parece estar relacionado.
Seems caused by Chinese text in .whtt title. Sometimes the Chinese text will cause Winhttrack to create some rubbish coded folders in the same folder as the .whtt file. And in these cases, there will be .html.z files left in the download folders and sometimes .delayed or empty files and failure with "Error when decompressing" message.
When I retried with plain ASCII project name for the sam URL, it succeeded.
So it seems an encoding problem (which doesn't exist in some earlier versions).
sugestões:
- Experimente o sinal
--utf8-conversion
. - Se isso não funcionar, tente baixar uma versão anterior do programa (uma vez que o repórter de erros afirma que algumas versões anteriores não apresentavam o problema).
-
Como alternativa, use
wget
. Algo comowget -mkp -np -nH www.example.com/path/to/toplevel/directory/index.html
copiará recursivamente todas as páginas vinculadas a
index.html
, que estão sob o diretórioexample.com/path/to/toplevel/directory/
. Ele também inclui todos os arquivos necessários para suportar esses arquivos (CSS, JS, etc).nota: se o wget destruir os nomes acentuados, use a opção
--restrict-file-names=nocontrol
arquivos quase duplicados
Quanto à questão dos arquivos quase duplicados, o HTTrack (ou wget) não pode realmente fazer nada sobre isso, a menos que você possa dizer como escolher quais arquivos ele deve ou não baixar.
Se houver algum tipo de esquema de nomenclatura consistente e você souber que não deseja arquivos com um determinado tipo de nome e / ou caminho, use um filtro para excluí-los.
-
HTTrack permite que os arquivos sejam excluídos usando filtros . Estes são padrões curinga prefixados com
-
, por exemplo. o filtro-www.example.com/path/to/toplevel/directory/subdir_with_dupes/*-2.html
excluirá todos os arquivos no subdiretório
subdir_with_dupes/
que tiverem um nome terminado em-2.html
. Existem vários curingas e regras de varredura que podem ser usados em filtros. Veja o link acima ou a página do manual. -
Se você usar wget, poderá excluir diretórios com
--exclude-directories
e sufixos de nome de arquivo com--reject
(permitindo curingas). Ou você pode aplicar um filtro de expressão regular ao URL inteiro com--reject-regex
. Existem muitas outras opções. Você pode obter uma lista comwget --help
e explicações comman wget
.