Download recursivo de subpasta com wget - --no-pai aparentemente não está funcionando

3

Eu preciso de alguma documentação sobre o XUL, mas não tenho acesso à Internet a maior parte do tempo. Então, eu tentei baixar o Tutorial do Mozilla com o seguinte comando:

wget --no-parent -r -l 2 -p -k https://developer.mozilla.org/en/XUL_Tutorial

Minha intenção era fazer o download da página https://developer.mozilla.org/en/XUL_Tutorial e de suas subpáginas (por exemplo, https://developer.mozilla.org/en/XUL_Tutorial/Install_Scripts ). No entanto, embora eu tenha passado o sinalizador --no-parent , ele continua recebendo páginas como https://developer.mozilla.org/index.php?title=Special:Userlogin&returntotitle=en%2FXUL+Tutorial%2FInstall+Scripts .

Eu não entendo porque isso acontece. Como eu poderia alcançar o comportamento que pretendia?

    
por brandizzi 30.05.2011 / 17:08

3 respostas

1

Tive que desativar a compactação gzip para que funcionasse. Também alterei o user-agent porque algumas páginas proíbem o wget. Então é isso que eu coloquei no meu .wgetrc:

header = Accept-Encoding: none

user_agent = Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6

Funciona muito bem aqui.

    
por 14.10.2011 / 12:15
6

Você precisa da barra no fim do URL.

    
por 15.09.2011 / 04:31
1

Estava com um problema semelhante:

wget -r -l1 --no-parent -nH "https://www.website.com/parent/directory/"

Acredito que houve um problema com https vs. http . Eu atualizei $HOME/.wgetrc para:

header = Accept-Encoding: none
header = Accept-Language: en-us,en;q=0.5
header = Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
header = Connection: keep-alive
user_agent = Mozilla/5.0 (Windows NT 5.1; rv:10.0.2) Gecko/20100101 Firefox/10.0.2
referer = http://www.google.com/
robots = off

Em seguida, mudou o https para http :

wget -r -l1 --no-parent -nH "http://www.website.com/parent/directory/"

O programa wget não criou mais pastas (ou arquivos recuperados) de fora da hierarquia de diretórios especificada.

    
por 18.08.2012 / 21:38