Wget sem sair do domínio que está sendo lido

0

Linux centos 6-64

O que devo adicionar ao wget para que ele apenas leia os links no domínio solicitado e não vá para outros domínios mencionados dentro do site que está sendo baixado?

Ex: ao espelhar o site1.com, ele vai ao site2.com porque há um link para o site2.com dentro do site1.com

Como eu não sei quais são o site2.com, site3.com, etc ele vai encontrar, então eu não achei adequado usar a opção de exclusão de domínio.

Existe uma opção para ler apenas os links do site.com?

Obrigado

    
por Joao 31.07.2018 / 22:21

1 resposta

1

man wget diz

  -D domain-list
   --domains=domain-list
       Set domains to be followed.  domain-list is a comma-separated list
       of domains.  Note that it does not turn on -H.

Observe também que wget do GNU abrangendo hosts diz

Wget’s recursive retrieval normally refuses to visit hosts different than the one you specified on the command line. This is a reasonable default; without it, every retrieval would have the potential to turn your Wget into a small version of google.

Então talvez você esteja usando -H por algum motivo?

Limit spanning to certain domains—‘-D’

The ‘-D’ option allows you to specify the domains that will be followed, thus limiting the recursion only to the hosts that belong to these domains. Obviously, this makes sense only in conjunction with ‘-H’. A typical example would be downloading the contents of ‘www.example.com’, but allowing downloads from ‘images.example.com’, etc.:

  wget -rH -Dexample.com http://www.example.com/
    
por 31.07.2018 / 23:06

Tags