Como baixar todos os arquivos html do diretório de uma URL com o wget?

4

Gostaria de usar wget para fazer o download de um tutorial em um site, mas este tutorial está em um diretório específico.

Suponha que o URL seja a página principal do tutorial http://www.abc.com/aaa/bbb/ccc/index.html .

Mas como contém "continuações", há outras páginas que gostaria de ser interconectadas em diretórios como:

http://www.abc.com/aaa/bbb/ccc/ddd/index.html

http://www.abc.com/aaa/bbb/ccc/eee/index.html

http://www.abc.com/aaa/bbb/ccc/fff/ggg/index.html

Então, basicamente eu preciso baixar recursivamente os diretórios depois do ccc, mas não antes, e depois converter os links para serem usados offline. Existe algum argumento a ser usado com wget que executaria tal tarefa?

    
por Zignd 22.07.2013 / 23:11

1 resposta

6

Tente:

wget -r -np -k -p http://www.site.com/dir/page.html

Os args (veja man wget ) são:

  • r Recorre a links, recuperando essas páginas também (isso tem uma profundidade máxima padrão de 5, pode ser definida com -l ).
  • np Nunca insira um diretório pai (ou seja, não siga um link "home" e espelhe o site inteiro; isso impedirá que você ultrapasse ccc em seu exemplo).
  • k Converta links relativos à cópia local.
  • p Obtenha os requisitos de página como folhas de estilo (isso é uma exceção à regra np ).

Se bem me lembro, o wget criará um diretório com o nome do domínio e colocará tudo lá, mas apenas no caso de tentar de um PWD vazio.

    
por 22.07.2013 / 23:53