Download recursivamente de arquivos de um site usando o wget

1

Eu quero baixar um conjunto de arquivos de um site. Os documentos HTML estão vinculados a

<a href="https://website.com/path/to/folder/jjxx.70" data-linktype="relative-path">bla</a>

após o download do arquivo principal, o caminho / para / pasta é removido conforme o esperado. A linha restante é:

<a href="jjxx.70" data-linktype="relative-path">bla</a>

Mas o wget não faz o download dos arquivos referenciados, embora eu tenha passado pelo parâmetro mirror . Tudo que eu obtenho é:

c:\>wget-1.12 -m -p -E https://website.com/path/to/folder/jjroot
... progress information ...
2018-09-15 18:52:33 (708 KB/s) - 'website.com/path/to/folder/jjroot.html' saved [25784/25784]

FINISHED --2018-09-15 18:52:33--
Downloaded: 1 files, 25K in 0.04s (708 KB/s)
  • Por que o wget faz o download apenas de "1 arquivos"?
  • Como posso dizer ao wget para baixar de forma recursiva?

Editar : Desde que me perguntaram: A versão do wget é 1.12. Eu também usei o wget 1.19.4 com o mesmo resultado.

    
por harper 15.09.2018 / 19:10

1 resposta

2

O comando é:

wget -r -np -l 1 -A zip http://example.com/download/

Significado das opções:

-r,  --recursive          specify recursive download.
-np, --no-parent          don't ascend to the parent directory.
-l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
-A,  --accept=LIST        comma-separated list of accepted extensions

Você pode personalizar as extensões necessárias usando o parâmetro -A

referência

https://stackoverflow.com/questions/13533217/how-to-download-all-links-to-zip-files-on-a-given-web-page-using-wget-curl
    
por 15.09.2018 / 21:05

Tags