Limitando arquivos com wget

0

Estou tentando baixar arquivos da lista de discussão, como

link

Em particular, tenho uma página e gostaria de fazer o download de todos os arquivos vinculados a essa página que terminem com ".txt.gz". Existe uma maneira de restringir o wget para fazer isso? Caso contrário, uma abordagem alternativa?

Referências

link

    
por Charles 29.06.2012 / 19:59

3 respostas

3

Tente isto:

wget \
    --recursive \
    --no-directories \
    --no-parent \
    --level 1 \
    --accept .txt.gz \
    --execute robots=off \
    http://lists.cryolist.org/pipermail/cryolist-cryolist.org/

Usando opções longas para facilitar a leitura.

    
por 29.06.2012 / 20:47
3

De wget --help :

-r,  --recursive          specify recursive download.
-l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
-A,  --accept=LIST        comma-separated list of accepted extensions.

Lembrando que os arquivos estão vinculados no iFrame lists.cryolist.org/pipermail/cryolist-cryolist .org , o seguinte comando produzirá os resultados desejados:

wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org

Comutadores

  • A opção -r faz o download de outros recursos vinculados a.

  • A opção -l1 limita isso a um nível, ou seja, se page1 vincular a page2 e page2 links a unwanted.txt.gz , esse arquivo não será baixado.

por 29.06.2012 / 20:52
0

Escreva um script bash, armazene todos os meses em uma matriz, execute um laço para que eles os insiram no comando wget na posição correta

    
por 29.06.2012 / 20:47

Tags