Como baixar todos os arquivos html do diretório de uma URL com o wget?

Question

Como baixar todos os arquivos html do diretório de uma URL com o wget?

#1 resposta do (6 votos)

4

Gostaria de usar wget para fazer o download de um tutorial em um site, mas este tutorial está em um diretório específico.

Suponha que o URL seja a página principal do tutorial http://www.abc.com/aaa/bbb/ccc/index.html .

Mas como contém "continuações", há outras páginas que gostaria de ser interconectadas em diretórios como:

http://www.abc.com/aaa/bbb/ccc/ddd/index.html

http://www.abc.com/aaa/bbb/ccc/eee/index.html

http://www.abc.com/aaa/bbb/ccc/fff/ggg/index.html

Então, basicamente eu preciso baixar recursivamente os diretórios depois do ccc, mas não antes, e depois converter os links para serem usados offline. Existe algum argumento a ser usado com wget que executaria tal tarefa?

directory wget html recursive download

por Zignd 22.07.2013 / 21:11

1 resposta

Tags directory wget html recursive download

Solução semelhante ao Kickstarter para o OpenBSD? Como fazer com que o apt reconheça um pacote tar instalado?

score 6 · Accepted Answer

Tente:

wget -r -np -k -p http://www.site.com/dir/page.html

Os args (veja man wget ) são:

r Recorre a links, recuperando essas páginas também (isso tem uma profundidade máxima padrão de 5, pode ser definida com -l ).
np Nunca insira um diretório pai (ou seja, não siga um link "home" e espelhe o site inteiro; isso impedirá que você ultrapasse ccc em seu exemplo).
k Converta links relativos à cópia local.
p Obtenha os requisitos de página como folhas de estilo (isso é uma exceção à regra np ).

Se bem me lembro, o wget criará um diretório com o nome do domínio e colocará tudo lá, mas apenas no caso de tentar de um PWD vazio.