Como fazer o download com o wget sem seguir os links com parâmetros

11

Estou tentando baixar dois sites para inclusão em um CD:

http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info

O problema que estou tendo é que estes são ambos wikis. Então, ao fazer o download com, por exemplo:

wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/

Eu obtenho um lote de arquivos porque ele também segue links como ...? action = edit ...? action = diff & version = ...

Alguém sabe uma maneira de contornar isso?

Eu só quero as páginas atuais, sem imagens e sem diffs, etc.

P.S .:

wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex

Isso funcionou para berkeley, mas o boinc-wiki.info ainda está me causando problemas: /

P.P.S:

Eu tenho o que parece ser as páginas mais relevantes com:

wget -r -k -nv  -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info
    
por Tie-fighter 29.06.2010 / 23:03

4 respostas

5

A nova versão do wget (v.1.14) resolve todos esses problemas.

Você precisa usar a nova opção --reject-regex=.... para manipular as strings de consulta.

Observe que não consegui encontrar o novo manual que inclui essas novas opções, portanto, você precisa usar o comando de ajuda wget --help > help.txt

    
por 05.01.2014 / 20:36
4
wget --reject-regex '(.*)\?(.*)' http://example.com

( --reject-type posix por padrão). Funciona apenas para versões recentes (> = 1.14) de wget , de acordo com outros comentários.

Cuidado, parece que você pode usar --reject-regex apenas uma vez por wget de chamada. Ou seja, você precisa usar | em um único regex se quiser selecionar vários regex:

wget --reject-regex 'expr1|expr2|…' http://example.com
    
por 25.01.2014 / 20:07
0
wget -R "*?action=*"

Isso excluirá qualquer coisa que contenha ?action= em seu nome.

    
por 30.06.2010 / 00:04
-3

Eu diria que a leecagem de um wiki público é uma prática ruim, porque coloca uma carga adicional nele.

Se um wiki é público e os proprietários do site não se importam em compartilhar o conteúdo, eles geralmente fornecem um dump de back-end (banco de dados ou qualquer outro) para download. Assim, basta fazer o download do pacote de dados, configurar uma instância local do mesmo mecanismo de wiki, importar os dados para ele e ter uma cópia local. Depois disso, se desejar, você pode fazer o leeching localmente.

    
por 31.07.2010 / 18:08

Tags