Tente isto:
wget \ --recursive \ --no-directories \ --no-parent \ --level 1 \ --accept .txt.gz \ --execute robots=off \ http://lists.cryolist.org/pipermail/cryolist-cryolist.org/
Usando opções longas para facilitar a leitura.
Estou tentando baixar arquivos da lista de discussão, como
link
Em particular, tenho uma página e gostaria de fazer o download de todos os arquivos vinculados a essa página que terminem com ".txt.gz". Existe uma maneira de restringir o wget para fazer isso? Caso contrário, uma abordagem alternativa?
De wget --help
:
-r, --recursive specify recursive download.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
-A, --accept=LIST comma-separated list of accepted extensions.
Lembrando que os arquivos estão vinculados no iFrame lists.cryolist.org/pipermail/cryolist-cryolist .org , o seguinte comando produzirá os resultados desejados:
wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org
A opção -r
faz o download de outros recursos vinculados a.
A opção -l1
limita isso a um nível, ou seja, se page1
vincular a page2
e page2
links a unwanted.txt.gz
, esse arquivo não será baixado.
Escreva um script bash, armazene todos os meses em uma matriz, execute um laço para que eles os insiram no comando wget na posição correta