Como enrolar o conteúdo completo da página web?

1

Quero fazer o download do código-fonte HTML completo de uma página da Web X , mas o curling do X link retornará o código-fonte HTML parcial na página da Web requer rolagem para ver mais conteúdo. Parece que a onda não passa de "rolagem para baixo".

Até agora, só posso fazer isso manualmente:
1) Vá para o site desejado
2) Execute o seguinte comando no console do navegador para rolar automaticamente (carregar cada objeto):

var scroll = setInterval(function(){ window.scrollBy(0,1000); }, 2000);

3) Copie o código-fonte HTML completo do elemento inspecionar

Portanto, a questão é: como posso executar o comando curl para que ele raspe todo o conteúdo da página da Web (rola até carregar todos os objetos) antes de sair no terminal para obter o mesmo resultado das etapas acima mencionadas? Se não com curl , talvez wget ?

    
por bashbin 30.04.2018 / 19:46

2 respostas

2

curl não é um navegador completo e, pelo que sei, não suporta a execução de JavaScript. Ele usa HTTP / FTP para buscar arquivos; isso é tudo. Se você quiser fazer testes de funcionalidade que dependem de scripts ou outras ferramentas que uma simples solicitação HTTP é incapaz de abordar, você precisará examinar um conjunto de testes mais aprofundado, como o Selenium.

    
por 30.04.2018 / 19:55
1

A única maneira de fazer isso é emular o navegador, porque você precisa executar o Javascript. Você deve ser capaz de fazer isso com o Selenium, mas definitivamente requer alguma programação, provavelmente em Python.

Link do selênio: link

    
por 30.04.2018 / 20:30