Como fazer o download com o wget sem seguir os links com parâmetros

Question

Como fazer o download com o wget sem seguir os links com parâmetros

#1 resposta do (5 votos)
#2 resposta do (4 votos)
#3 resposta do (0 votos)
#4 resposta do (-3 votos)

11

Estou tentando baixar dois sites para inclusão em um CD:

http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info

O problema que estou tendo é que estes são ambos wikis. Então, ao fazer o download com, por exemplo:

wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/

Eu obtenho um lote de arquivos porque ele também segue links como ...? action = edit ...? action = diff & version = ...

Alguém sabe uma maneira de contornar isso?

Eu só quero as páginas atuais, sem imagens e sem diffs, etc.

P.S .:

wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex

Isso funcionou para berkeley, mas o boinc-wiki.info ainda está me causando problemas: /

P.P.S:

Eu tenho o que parece ser as páginas mais relevantes com:

wget -r -k -nv  -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info

wget linux unix

por Tie-fighter 29.06.2010 / 21:03

4 respostas

Tags wget linux unix

Como posso excluir os cookies antigos no Chrome? Aplicativo da lista de discussão?

score 5 · Answer 1

A nova versão do wget (v.1.14) resolve todos esses problemas.

Você precisa usar a nova opção --reject-regex=.... para manipular as strings de consulta.

Observe que não consegui encontrar o novo manual que inclui essas novas opções, portanto, você precisa usar o comando de ajuda wget --help > help.txt

score 4 · Answer 2

wget --reject-regex '(.*)\?(.*)' http://example.com

( --reject-type posix por padrão). Funciona apenas para versões recentes (> = 1.14) de wget , de acordo com outros comentários.

Cuidado, parece que você pode usar --reject-regex apenas uma vez por wget de chamada. Ou seja, você precisa usar | em um único regex se quiser selecionar vários regex:

wget --reject-regex 'expr1|expr2|…' http://example.com

score 0 · Answer 3

0

wget -R "*?action=*"

Isso excluirá qualquer coisa que contenha ?action= em seu nome.

por 29.06.2010 / 22:04

score -3 · Answer 4

Eu diria que a leecagem de um wiki público é uma prática ruim, porque coloca uma carga adicional nele.

Se um wiki é público e os proprietários do site não se importam em compartilhar o conteúdo, eles geralmente fornecem um dump de back-end (banco de dados ou qualquer outro) para download. Assim, basta fazer o download do pacote de dados, configurar uma instância local do mesmo mecanismo de wiki, importar os dados para ele e ter uma cópia local. Depois disso, se desejar, você pode fazer o leeching localmente.