Fazendo download de arquivos PDF aninhados com o wget

1

Estou tentando baixar dezenas de arquivos PDF localizados em páginas vinculadas a partir daqui:

link

Cada PDF é referido por um URL que termina com /downloadable/download/sample/sample_id/[some three digit number]/ .

Eu tentei estes:

wget -r -l2 -A.pdf http://machineknittingetc.com/passap.html?limit=all
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.pdf"
wget -r -l2 -np http://machineknittingetc.com/passap.html?limit=all -A "*.###"

Não recebe os PDFs.

Isso tem algo a ver com o servidor não sendo indexado para permitir que eu acesse os URLs como uma hierarquia de arquivos? Existe uma maneira de fazer isso funcionar?

    
por Kallaste 02.01.2017 / 08:47

2 respostas

1

@ rajaganesh87  você está adivinhando os números de link de diretório e seu código não funciona para os links reais necessários pelo link link e os arquivos (.pdf) correlacionados a ele.

O problema é que você está sendo bloqueado pela equipe

robots.txt file

e você está usando o ponto (.) em

    -A .pdf

Experimente o código abaixo que testei e funciona.

 wget -np -nd -r -l2 -A pdf -e robots=off http://machineknittingetc.com/passap.html?limit=all 

Espero que isso ajude.

    
por 26.05.2017 / 10:19
2

Isso funciona para você?

#!/bin/bash
for i in {000..175}
do
     wget  http://machineknittingetc.com/downloadable/download/sample/sample_id/$i
done
    
por 02.01.2017 / 09:51

Tags