Resolução de problemas '$ wget -A.pdf -r site.com'

2

Estou tentando obter trabalhos de casa com o comando, mas, por algum motivo, ele não os retorna. Alguma ideia do porquê?

$ wget -A.pdf -r -nd https://noppa.aalto.fi/noppa/kurssi/mat-2.3152/viikkoharjoitukset/

Meu objetivo é fazer o download de todos os trabalhos de casa e depois mesclá-los com pdftk e, em seguida, pesquisá-los com algum programa - mas não posso continuar (sem precisar acessar o Firefox DownloadThemAll -plugin) até que isso funcione. Idéias porque não está funcionando? Os sysadmins criaram algumas proibições para os wgets ou por que elas falham?

Eu recebo apenas este arquivo robots.txt:

$ cat robots.txt 
User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /
Disallow: /cgi-bin/
    
por Gilles 20.12.2011 / 19:20

1 resposta

4

Seu problema está em robots.txt . Wget olha e vê

User-agent: *
Disallow: /

Você pode usar o comando tell wget para ignorar o arquivo robots.txt :

wget -A.pdf -r -nd -e robots=off  https://noppa.aalto.fi/noppa/kurssi/mat-2.3152/viikkoharjoitukset/

E vai funcionar.

    
por 20.12.2011 / 19:42

Tags