Como posso baixar PDFs de um site usando apenas o nome de domínio raiz?

0

Estou usando este comando:

wget -nd -e robots=off --wait 0.25 -r -A.pdf http://yourWebsite.net/

mas não consigo obter PDFs no site.

Por exemplo, tenho um nome de domínio raiz:

www.example.com

e este site tem PDFs, DOCs, HTMLs, etc. Quero baixar todos os PDFs inserindo apenas o nome do domínio raiz, não o endereço exato da página de download.

    
por PEDY 18.05.2014 / 16:58

1 resposta

0

A aplicação do comando fornecido a um site exemplar funcionou na minha máquina Ubuntu 12.04 usando o wget versão 1.13.4:

$ wget -nd -e robots=off --wait 0.25 -r -A.pdf http://www.cvpapers.com

No entanto, leva algum tempo até que o primeiro pdf seja baixado, já que o site fornece muitos arquivos html, que precisam ser ignorados.

Deixar a opção "--wait 0.25" acelera o processo, mas obviamente aumenta a carga de trabalho no lado do servidor.

Se o comando não funcionar para o seu site, pode ser um problema / layout / ... específico do site, evitando um download bem-sucedido.

    
por 17.09.2014 / 11:16