Baixando páginas da web através da lista de URLs?

3

Atualmente, estou usando sitesucker para baixar todos os arquivos do site de um cliente. Isso me pega a maioria das páginas, mas o problema é que algumas das páginas que temos não são realmente acessadas por link, mas por um localizador de código postal. Existe uma maneira que eu posso usar essa ferramenta ou outra ferramenta, mesmo para dar-lhe uma lista de URLs, e faz o download dos arquivos para mim, conforme necessário, mantendo a estrutura de pastas muito parecido com o site otário.

Minhas desculpas se este é um lugar ruim para fazer esta pergunta:).

    
por agmcleod 28.03.2012 / 14:58

3 respostas

5

Você pode usar o wget: crie um arquivo simples com a lista do URL que você precisa baixar (por exemplo, pippo.txt):

pippo.txt:

http://url1.zip
http://url2.htm
http://url3/
ftp://url4/file.zip

Em seguida, use o wget para fazer o download da lista de URLs:

cd /some/folder/
wget -i /path/to/pippo.txt

Concluído

wget for linux é uma ferramenta básica link Para Windows, há uma porta bin: link

    
por 28.03.2012 / 15:22
1

Se você tiver acesso a uma máquina Linux (talvez virtualmente no Virtualbox ) e, dependendo do que estiver tentando fazer, talvez você queira dar uma olhada em wget .

Usando a opção -r , você pode fazer coisas como recursivas de um website.

Você poderia fazer:

wget -r http://website/page?postcode=1234
wget -r http://website/page?postcode=5678

Fácil de criar scripts / Excelável.

    
por 28.03.2012 / 15:05
1

Escrevi uma extensão de navegador para o Chrome para fazer exatamente isso usando a API de download do Google Chrome, que funciona em todas as plataformas (sistemas operacionais), ou seja, Windows / Mac / Linux: -)

É chamado TabSave e originalmente foi para isso, estou adicionando a capacidade de fazer algumas coisas que os pesquisadores podem querer fazer dando títulos PDFs diretamente do navegador, mas é muito leve e pode pegar de abas abertas, se isso é útil.

Você pode obter a extensão aqui e todo o código é de código aberto no GitHub < um href="https://github.com/lmmx/tabsave"> aqui .

Sinta-se a vontade para bifurcar se quiser seguir uma direção diferente: -)

    
por 26.05.2014 / 17:57