Como posso baixar PDFs de um site usando apenas o nome de domínio raiz?

Question

Como posso baixar PDFs de um site usando apenas o nome de domínio raiz?

#1 resposta do Radu Rădeanu (3 votos)
#2 resposta do Eduard Florinescu (0 votos)

6

Estou usando este comando:

wget -nd -e robots=off --wait 0.25 -r -A.pdf http://yourWebsite.net/

mas não consigo obter PDFs no site.

Por exemplo, tenho um nome de domínio raiz:

www.example.com

e este site tem PDFs, DOCs, HTMLs, etc. Quero baixar todos os PDFs inserindo apenas o nome do domínio raiz, não o endereço exato da página de download.

command-line 14.04 wget

por PEDY 18.05.2014 / 11:05

2 respostas

0

Caso o acima não funcione tente isto: (substitua o URL)

lynx -listonly -dump http://www.philipkdickfans.com/resources/journals/pkd-otaku/ | grep pdf | awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}' | xargs -L1 -I {} wget {}

talvez seja necessário instalar o lynx:

sudo apt install lynx

por Eduard Florinescu 26.04.2018 / 20:54

Tags command-line 14.04 wget

Eclipse não usando o PATH Como posso configurar o gerenciador de rede (via linha de comando) para sempre se conectar a uma rede sem fio com um determinado SSID?

score 3 · Accepted Answer

O seguinte comando deve funcionar:

wget -r -A "*.pdf" "http://yourWebsite.net/"

Veja man wget para mais informações.