Por que “wget -r -e robots = off http://ccachicago.org” não está agindo recursivamente?

4

Estou tentando fazer download recursivamente de http://ccachicago.org e estou recebendo exatamente um arquivo, a raiz index.html , baixada.

Eu examinei Faça o download recursivamente com o wget e comecei a usar a% recomendada-e robots=off, mas ainda se comporta da mesma forma.

Como, com wget ou alguma outra ferramenta, posso baixar uma cópia do site?

    
por JonathanHayward 27.01.2014 / 17:04

2 respostas

6

você está pedindo para o wget fazer um download recursivo de http://ccachicago.org , mas esse URL não fornece nenhum conteúdo direto. em vez disso, é apenas um redirecionamento para http://www.ccachicago.org (que você não disse a wget para buscar recursivamente).

se você disser wget para fazer o download do URL correto, funcionará:

wget -r -e robots=off http://www....
    
por 27.01.2014 / 17:16
5

É porque o wget usa apenas o download recursivo dentro do nome do host que você usou quando começou.

O

link emite um redirecionamento para o link . Como todos os links adicionais estão em www.ccachicago.org , o wget considerará esses links como fora do site e não os seguirá.

A solução mais fácil aqui é começar com wget -r http://www.ccachicago.org .

Você também pode adicionar www.ccachicago.org à lista de domínios a seguir:

wget -r -D www.ccachicago.org http://ccachicago.org

Para o futuro, você pode encontrar esse tipo de informação adicionando o sinalizador de depuração. Quando fiz isso, consegui

Deciding whether to enqueue "http://www.ccachicago.org/".
This is not the same hostname as the parent's (www.ccachicago.org and ccachicago.org).
Decided NOT to load it.
Redirection "http://www.ccachicago.org/" failed the test.
    
por 27.01.2014 / 17:15

Tags