Copie um site via HTTP para baixar imagens, HTML e CSS

23

Eu preciso rasgar um site via HTTP. Eu preciso baixar as imagens, HTML, CSS e JavaScript, bem como organizá-lo em um sistema de arquivos.

Alguém sabe como fazer isso?

    
por damon 06.02.2009 / 22:38

11 respostas

40
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com

Isso é executado no console.

isso vai pegar um site, esperar 3 segundos entre as solicitações, limitar a velocidade de download para não matar o site e se mascarar de uma forma que pareça ser apenas um navegador para que o site não seja cortá-lo usando um mecanismo anti-sanguessuga.

Observe o parâmetro -A que indica uma lista dos tipos de arquivo que você deseja baixar.

Você também pode usar outra tag, -D domain1.com,domain2.com , para indicar uma série de domínios que deseja baixar se eles tiverem outro servidor ou o que for para hospedar diferentes tipos de arquivos. Não há uma maneira segura de automatizar isso para todos os casos, se você não obtiver os arquivos.

wget é comumente pré-instalado no Linux, mas pode ser compilado trivialmente para outros sistemas Unix ou baixado facilmente para o Windows: GNUwin32 WGET

Use isso para o bem e não para o mal.

    
por 06.02.2009 / 23:13
16

Solução boa e gratuita: HTTrack

HTTrack is a free (GPL, libre/free software) and easy-to-use offline browser utility.

It allows you to download a World Wide Web site from the Internet to a local directory, building recursively all directories, getting HTML, images, and other files from the server to your computer. HTTrack arranges the original site's relative link-structure. Simply open a page of the "mirrored" website in your browser, and you can browse the site from link to link, as if you were viewing it online. HTTrack can also update an existing mirrored site, and resume interrupted downloads. HTTrack is fully configurable, and has an integrated help system.

    
por 06.02.2009 / 22:40
7

Nos sistemas Linux, o 'wget' faz isso, basicamente.

Também foi portado para várias outras plataformas, como várias outras respostas mencionam.

    
por 06.02.2009 / 22:39
2

Obviamente, o WGet foi mencionado algumas vezes. A melhor interface do usuário que encontrei para isso é

Existem outras interfaces do WGet, algumas das quais são candidatas à pior ui pergunta

    
por 01.03.2009 / 18:42
1

Veja a extensão do Scrapbook para o firefox. Ele faz um trabalho incrível nisso e também se integra ao firebug e permite que você exclua elementos do DOM antes de salvar, se desejar.

    
por 06.02.2009 / 22:42
1

Você precisa usar o wget - que está disponível para a maioria das plataformas. O curl não solicita documentos recursivamente, o que é um dos principais pontos strongs do wget.

Linux: (normalmente incluído na distribuição) link
Windows: link
Mac: link

POR FAVOR, certifique-se de que você não está manipulando o site. Configure atrasos adequados entre as solicitações e verifique se ele está dentro dos termos de serviço do site.

-Adam

    
por 06.02.2009 / 22:42
1

Na verdade, seguindo o meu comentário no post do GWLlosa, acabei de me lembrar de ter o GnuWin32 instalado, e com certeza ele contém uma porta do Windows do wget.

link

GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP
    
por 06.02.2009 / 22:48
1

Eu usei isso há alguns anos e funcionou bem. Apenas Windows. Costumava ser adware, mas não mais, aparentemente:

link

    
por 06.02.2009 / 23:38
0

Acho que o site grabber do IDM é a melhor solução, há também Teleport pro

    
por 06.02.2009 / 22:44
0
O

Free Download Manager também pode baixar sites da Web completos.

Somente no Windows, eu acho.

    
por 06.02.2009 / 23:18
0

wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com

  • -p : parameter tells wget to include all files, including images.
  • -e robots=off : ignore sites robots.txt rules
  • -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" : user agent string
  • --random-wait : avoid getting blacklisted
  • --limit-rate=20k : limits the rate at which it downloads files.
  • -b : continues wget after logging out.
    
por 17.07.2017 / 10:25