Como posso baixar PDFs de um site usando apenas o nome de domínio raiz?

6

Estou usando este comando:

wget -nd -e robots=off --wait 0.25 -r -A.pdf http://yourWebsite.net/

mas não consigo obter PDFs no site.

Por exemplo, tenho um nome de domínio raiz:

www.example.com

e este site tem PDFs, DOCs, HTMLs, etc. Quero baixar todos os PDFs inserindo apenas o nome do domínio raiz, não o endereço exato da página de download.

    
por PEDY 18.05.2014 / 13:05

2 respostas

3

O seguinte comando deve funcionar:

wget -r -A "*.pdf" "http://yourWebsite.net/"

Veja man wget para mais informações.

    
por Radu Rădeanu 18.05.2014 / 14:36
0

Caso o acima não funcione tente isto: (substitua o URL)

lynx -listonly -dump http://www.philipkdickfans.com/resources/journals/pkd-otaku/ | grep pdf | awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}' | xargs -L1 -I {} wget {} 

talvez seja necessário instalar o lynx:

sudo apt install lynx
    
por Eduard Florinescu 26.04.2018 / 22:54