Httrack filtra links com determinado padrão

0

Estou tentando usar o httrack para fazer o download de um webarchive inteiro do archive.org. A ideia é baixar apenas os links do arquivo (o máximo possível), mas apenas os links que são realmente do arquivo e não do site atual. Em outras palavras, quero fazer o download apenas dos links que contêm esse padrão:

/web/[archive_timestamp]/[website]/*

Veja um exemplo

Aqui está um link do arquivo: link

No outro para baixar os links que eu preciso, estou usando este comando:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +*/web/20011209181356/http://www.emag.ro/*

Isso deve significar filtrar todos os links (desativar todos eles) e ativar somente aqueles que contêm / web / 20011209181356 / link

O comando faz o download apenas da página inicial, então acho que estou fazendo algo errado.

Se alguém tiver uma ideia de como fazer isso (exceto na criação do meu próprio raspador - tentei evitar isso para economizar tempo), mesmo com uma ferramenta diferente que eu possa usar na linha de comando e também funciona janelas.

    
por user1812076 27.03.2015 / 10:05

1 resposta

1

Você esteve muito perto - você só precisou adicionar o nome de domínio à sua regra de varredura assim:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/20011209181356/http://www.emag.ro/*

Ou, para obter todas as versões arquivadas desse domínio, você pode usar:

httrack http://web.archive.org/web/20011209181356/http://www.emag.ro:80/ -* +web.archive.org/web/*/http://www.emag.ro/*

Mas você desejará habilitar o percurso por todo o domínio usando essas opções de linha de comando (ou definindo-as na GUI em "Somente especialistas")

B ... pode viajar para cima & na estrutura de diretórios do d ... mas permaneça no mesmo domínio principal

Veja a imagem abaixo. É isso que você queria alcançar?

Páginas baixadas

    
por 04.02.2016 / 23:21