Tornar os recursos da página de download do wget em um domínio diferente

12

Como você usa o wget para baixar um site inteiro (domínio A) quando seus recursos estão em outro domínio, (domínio B)?
Eu tentei: wget -r --level=inf -p -k -E --domains=domainA,domainB http://www.domainA

    
por Parsa 09.04.2010 / 07:47

3 respostas

11
wget --recursive --level=inf --page-requisites --convert-links --html-extension \
     --span-hosts=domainA,domainB url-on-domainA

UPDATE: Eu me lembro do comando acima trabalhado para mim no passado (que era 2010 e eu estava usando o GNU Tools para Windows naquela época); no entanto, tive que alterá-lo para o seguinte quando quis usá-lo hoje:

wget --recursive --level=inf --page-requisites --convert-links \
     --adjust-extension --span-hosts --domains=domainA,domainB domainA

A abreviação para isso seria: wget -rEDpkH -l inf domainA,domainB domainA

  • -r = --recursive
  • -l <depth> = --level=<depth>
  • -E = --adjust-extension
  • -p = --page-requisites
  • -K = --backup-converted
  • -k = --convert-links
  • -D <domain-list> = --domain-list=<domain-list>
  • -H = --span-hosts
  • -np = --no-parent
  • -U <agent-string> = --user-agent=<agent-string>

GNU Wget Manual: https://www.gnu.org/software/wget/manual/wget.html

    
por 08.11.2010 / 06:36
1

wget --recursive --level = inf --page-requirements --convert -links --html-extension -rH -DomemainA, domainB domainA

    
por 09.04.2013 / 11:26
0
wget --page-requisites --convert-links --adjust-extension --span-hosts --domains domainA,domainB domainA

Você pode precisar ignorar o robots.txt (observe que isso pode ser uma violação de alguns termos de serviço e você deve fazer o download do mínimo necessário). Consulte o link .

    
por 14.02.2014 / 03:01