wget não funciona no modo recursivo

1

GNU Wget 1.16 built on linux-gnueabihf on Raspberry Pi 3

Como faço para forçar o wget a obter o site inteiro (siga os links, aja como um robô), não apenas o primeiro índice?

Eu tentei:

wget -r http://aol.com
wget -r -l0 http://aol.com
wget -r -m -l0 http://aol.com

Todos os comandos terminaram com o mesmo:

--2017-11-29 08:05:42--  http://aol.com/
Resolving aol.com (aol.com)... 149.174.149.73, 64.12.249.135, 149.174.110.105, ...
Connecting to aol.com (aol.com)|149.174.149.73|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://www.aol.com/ [following]
--2017-11-29 08:05:42--  https://www.aol.com/
Resolving www.aol.com (www.aol.com)... 34.233.220.13, 34.235.7.32, 52.6.64.98, ...
Connecting to www.aol.com (www.aol.com)|34.233.220.13|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Last-modified header missing -- time-stamps turned off.
--2017-11-29 08:05:44--  https://www.aol.com/
Reusing existing connection to www.aol.com:443.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘aol.com/index.html’

aol.com/index.html                                              [  <=>                                                                                                                                      ] 359.95K   751KB/s   in 0.5s

2017-11-29 08:05:45 (751 KB/s) - ‘aol.com/index.html’ saved [368585]

FINISHED --2017-11-29 08:05:45--
Total wall clock time: 2.8s
Downloaded: 1 files, 360K in 0.5s (751 KB/s)

O que estou fazendo de errado?

    
por Flash Thunder 29.11.2017 / 09:12

2 respostas

2

Seu problema surge porque todos os links em aol.com/index.html apontam para hosts diferentes. Para baixar recursivamente de todos os hosts, você pode adicionar a opção --span-hosts . Para permitir todos os hosts da aol, pareceu funcionar para mim adicionar a opção --span-hosts '*.aol.com' .

wget --span-hosts '*.aol.com' -r http://www.aol.com

Você pode listar os links com

grep -Po '(?<=href=")[^"]*' aol.com/index.html

Você verá que a maioria deles aponta para www.aol.com para que você também possa ligar

wget -r http://www.aol.com
    
por 29.11.2017 / 09:27
0

Usar o seguinte permitirá que wget faça download de todas as páginas vinculadas a um site de forma recursiva.

wget -r $(curl http://aol.com | grep -Po '(?<=href=")[^"]*')

Substitua o site de exemplo pelo que você deseja. Isso irá buscar como Deapth for search in a graph

O método de trabalho curl buscará index.html . Ele será canalizado para grep para encontrar todos os links correspondendo href . O resultado da entrada será dado a wget como uma variável. wget obtém os links um por um da variável.

    
por 29.11.2017 / 09:43

Tags