Use o wget para obter recursos de uma página (mas nada mais)

0

Eu fiz o download e armazenei uma página index.htm e (dependendo de alguns critérios desta página) quero usar wget para buscar todas as imagens, javascripts, arquivos css etc. que um navegador baixaria ao exibir a página.

Eu uso atualmente:

wget --server-response --timeout=120 --base="http://www.example.com/" --force-html --input-file="index.htm"

Isso funciona até agora, mas também obtém todos os links definidos como a href="/ somesubpage.htm" . Como posso evitar o download da uma href ...?

    
por Werner 26.12.2012 / 00:26

1 resposta

1

Como o wget não sabe como executar o javascript, você tem apenas duas soluções:

  • Faça uma solicitação na página com seu navegador e observe os registros do servidor da web. Em seguida, use wget em cada um dos elementos da página da web.
  • Use phantomjs. .
por 26.12.2012 / 18:06

Tags