wget assistência de recursão

1

Estou tentando baixar todos os PDFs de um diretório em um site com o seguinte:

wget -r -l1 --no-parent -A.pdf http://www.eduplace.com/math/mw/practice/1/practice/

No entanto, continuo recebendo "ERROR 404: Not Found". Isso parece ser um uso bem direto para frente e estou perdendo o que tentar em seguida.

    
por Andrew Hall 20.09.2016 / 15:07

1 resposta

0

O wget -r só funciona se todos os links para os pdfs forem de alguma forma alcançáveis a partir do URL fornecido.

O que você pode fazer é "ver" a fonte de HTML do site específico link ver como todos os links pdf são construídos. Em seguida, escreva um pequeno script para fazer isso automaticamente, assim:

wget http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html
CHAPT=$(grep chapter  lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*//')
FEAT=$(grep feature  lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*//')
for c in $CHAPT; do
    for f in $FEAT; do
        wget -O mw-practice-1-$c-$f.pdf https://www.eduplace.com/math/mw/practice/1/$c/$f.pdf
    done
done
    
por 20.09.2016 / 17:07

Tags