Ignora "outros" domínios ao fazer o download com wget?

Question

Ignora "outros" domínios ao fazer o download com wget?

#1 resposta do (14 votos)
#2 resposta do (4 votos)

12

Gostaria de rastrear links em www.website.com/XYZ e fazer o download apenas dos links em www.website.com/ABC.

Estou usando o seguinte comando wget para obter os arquivos desejados:

wget  -I ABC -r -e robots=off --wait 0.25  http://www.website.com/XYZ

Isso funciona perfeitamente quando eu uso o wget 1.13.4. Mas o problema é que eu tenho que usar esse comando em um servidor que possui o wget 1.11 e quando eu uso o mesmo comando, ele acaba baixando domínios adicionais como:

www.website.de 
www.website.it 
...

Como posso evitar esse problema? Eu tentei usar

--exclude domains=www.website.de,www.website.it

no entanto, continuou baixando esses domínios.

Observe também que não posso usar --no-parent , pois os arquivos que eu quero estão no nível superior (quero arquivos em website.com/ABC, rastreando os links em website.com/XYZ).

Alguma dica?

command-line wget

por user2779485 10.10.2013 / 18:24

2 respostas

14

Você pode tentar --max-redirect 0 ou usar --domains example.com como oposto de --exclude-domains example.com .

Veja:

  -D,  --domains=LIST              comma-separated list of accepted domains.
       --exclude-domains=LIST      comma-separated list of rejected domains.
       --follow-tags=LIST          comma-separated list of followed HTML tags.
       --ignore-tags=LIST          comma-separated list of ignored HTML tags.
  -np, --no-parent                 don't ascend to the parent directory.
  --max-redirect                   maximum redirections allowed per page.

por 22.01.2014 / 12:28

Tags command-line wget

A saída de substituição do processo está fora da ordem Com o que posso fazer um SHA3SUM?

score 4 · Accepted Answer

Isso está errado:

--exclude domains=www.website.de,www.website.it

O caminho certo é:

--exclude-domains www.website.de,www.website.it

Da página do manual do wget:

--exclude-domains domain-list
      Specify the domains that are not to be followed.