Ignora "outros" domínios ao fazer o download com wget?

12

Gostaria de rastrear links em www.website.com/XYZ e fazer o download apenas dos links em www.website.com/ABC.

Estou usando o seguinte comando wget para obter os arquivos desejados:

wget  -I ABC -r -e robots=off --wait 0.25  http://www.website.com/XYZ

Isso funciona perfeitamente quando eu uso o wget 1.13.4. Mas o problema é que eu tenho que usar esse comando em um servidor que possui o wget 1.11 e quando eu uso o mesmo comando, ele acaba baixando domínios adicionais como:

www.website.de 
www.website.it 
...

Como posso evitar esse problema? Eu tentei usar

--exclude domains=www.website.de,www.website.it

no entanto, continuou baixando esses domínios.

Observe também que não posso usar --no-parent , pois os arquivos que eu quero estão no nível superior (quero arquivos em website.com/ABC, rastreando os links em website.com/XYZ).

Alguma dica?

    
por user2779485 10.10.2013 / 20:24

2 respostas

4

Isso está errado:

--exclude domains=www.website.de,www.website.it

O caminho certo é:

--exclude-domains www.website.de,www.website.it

Da página do manual do wget:

--exclude-domains domain-list
      Specify the domains that are not to be followed.
    
por 12.10.2013 / 08:58
14

Você pode tentar --max-redirect 0 ou usar --domains example.com  como oposto de --exclude-domains example.com .

Veja:

  -D,  --domains=LIST              comma-separated list of accepted domains.
       --exclude-domains=LIST      comma-separated list of rejected domains.
       --follow-tags=LIST          comma-separated list of followed HTML tags.
       --ignore-tags=LIST          comma-separated list of ignored HTML tags.
  -np, --no-parent                 don't ascend to the parent directory.
  --max-redirect                   maximum redirections allowed per page.
    
por 22.01.2014 / 13:28