Lote páginas de download de um wiki sem páginas especiais

2

Ocasionalmente, encontro algumas documentações na web que preciso usar offline no meu notebook. Normalmente eu ligo o wget e obtenho todo o site.

No entanto, muitos projetos estão migrando para wikis, o que significa que eu também baixo todas as versões e todos os links "edite-me".

Existe alguma ferramenta ou qualquer configuração no wget, de modo que eu, por exemplo, baixe arquivos somente sem uma string de consulta ou correspondendo a um certo regexp?

Felicidades,

A propósito: o wget tem a opção -k muito útil, que converte qualquer link no site para suas contrapartes locais. Isso seria outro requisito. Exemplo: buscando páginas link . Em seguida, todos os links para "/ ..." ou " link ..." precisam ser convertidos para corresponder ao equivalente baixado.

    
por Boldewyn 10.09.2009 / 14:53

2 respostas

1

Da página do manual do wget:

-R rejlist --reject rejlist

Specify comma-separated lists of file name suffixes or patterns to accept or reject. Note that if any of the wildcard characters, *, ?, [ or ], appear in an element of acclist or rejlist, it will be treated as a pattern, rather than a suffix.

Isso parece exatamente o que você precisa.

Nota: para reduzir a carga no servidor wiki, você pode querer olhar para os flags -w e --random-wait.

    
por 25.10.2009 / 02:23
0

A maioria deles desaprova isso e a Wikipedia os bloqueia ativamente com o robots.txt. Eu preferiria link

    
por 11.09.2009 / 07:24