Faça o download de todos os arquivos de origem de uma página da Web

3

Eu quero baixar os arquivos de origem de uma página da Web que é um mecanismo de pesquisa de banco de dados. Usando o curl, só consigo baixar a página principal do html. Eu também gostaria de baixar todos os arquivos javascript, arquivos css e arquivos php que estão ligados à página da web e mencionados na página principal do html. Isso é possível fazer usando curl / wget ou algum outro utilitário?

    
por Hastur 19.06.2014 / 09:27

1 resposta

7

Em primeiro lugar, você deve verificar com o operador do site que isso é um uso aceitável de seu serviço. Depois disso, você pode fazer algo assim:

wget -pk example.com

-p obtém os requisitos para visualizar a página (o Javascript, CSS, etc). -k converte os links da página para aqueles que podem ser usados para visualização local.

De man wget :

-p, --page-requisites

This option causes Wget to download all the files that are necessary to properly display a given HTML page. This includes such things as inlined images, sounds, and referenced stylesheets.

[...]

-k, --convert-links

After the download is complete, convert the links in the document to make them suitable for local viewing. This affects not only the visible hyperlinks, but any part of the document that links to external content, such as embedded images, links to style sheets, hyperlinks to non-HTML content, etc.

    
por 19.06.2014 / 09:29