Isso está errado:
--exclude domains=www.website.de,www.website.it
O caminho certo é:
--exclude-domains www.website.de,www.website.it
Da página do manual do wget:
--exclude-domains domain-list Specify the domains that are not to be followed.
Gostaria de rastrear links em www.website.com/XYZ e fazer o download apenas dos links em www.website.com/ABC.
Estou usando o seguinte comando wget para obter os arquivos desejados:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Isso funciona perfeitamente quando eu uso o wget 1.13.4. Mas o problema é que eu tenho que usar esse comando em um servidor que possui o wget 1.11 e quando eu uso o mesmo comando, ele acaba baixando domínios adicionais como:
www.website.de
www.website.it
...
Como posso evitar esse problema? Eu tentei usar
--exclude domains=www.website.de,www.website.it
no entanto, continuou baixando esses domínios.
Observe também que não posso usar --no-parent , pois os arquivos que eu quero estão no nível superior (quero arquivos em website.com/ABC, rastreando os links em website.com/XYZ).
Alguma dica?
Isso está errado:
--exclude domains=www.website.de,www.website.it
O caminho certo é:
--exclude-domains www.website.de,www.website.it
Da página do manual do wget:
--exclude-domains domain-list Specify the domains that are not to be followed.
Você pode tentar --max-redirect 0 ou usar --domains example.com
como oposto de --exclude-domains example.com .
Veja:
-D, --domains=LIST comma-separated list of accepted domains.
--exclude-domains=LIST comma-separated list of rejected domains.
--follow-tags=LIST comma-separated list of followed HTML tags.
--ignore-tags=LIST comma-separated list of ignored HTML tags.
-np, --no-parent don't ascend to the parent directory.
--max-redirect maximum redirections allowed per page.
Tags command-line wget