Solicitações por segundo entre um navegador da Web e um Web Scrapper [fechado]

0

Meu entendimento: Quando um navegador faz uma solicitação para visualizar uma página, o servidor responde com o HTML. Em seguida, o navegador da Web processa esse código HTML, ele envia solicitações para cada objeto incorporado (como imagens) que ele vê no HTML para o servidor em menos de um segundo (dar ou receber). No entanto, usando um Web Scrapper eu faço uma requisição para o servidor pegar apenas o HTML e não renderizar o HTML.

A etiqueta apropriada para o Web Scrapping diz que você deve limitar suas solicitações a um por segundo no máximo para não sobrecarregar o servidor.

Então, por que não é um problema quando o Navegador da Web envia uma solicitação para cada Objeto Incorporado (várias solicitações com um segundo), mas é para um Scrapper da Web enviar várias solicitações por segundo, apenas para a origem HTML para páginas diferentes?

    
por bmanv13 21.06.2017 / 23:20

1 resposta

1

Os motivos pelos quais os web scrapers (não os scrappers) usam um atraso são:

  • para esconder que estão raspando a web e serem banidos dos sites que estão tentando raspar (usando pequenos atrasos entre as páginas, eles se parecem mais com um navegador da Web operado por um ser humano que está navegando na Internet)
  • por cortesia do proprietário do site (solicitar muitos dados em um período de tempo muito curto pode sobrecarregar o servidor e fazer com que o site pareça não responder a outros usuários do site)

Quando o seu navegador (ou um web scraper) solicita uma página, ela não precisa esperar um segundo inteiro entre a solicitação de objetos na mesma página. Ele pode solicitá-los imediatamente - isso resulta em uma melhor experiência do usuário (carregamentos de página mais rápidos).

O que um usuário "normal" não fará é solicitar páginas diferentes dentro de um período de tempo muito curto. Um usuário irá olhar para uma página, clicar em um link para ir para a próxima página, etc. Portanto, quando um usuário estiver navegando em um site, haverá um atraso entre a solicitação de páginas diferentes do mesmo site. É muito provável que esse atraso de 1 segundo tenha sido mencionado em sua pergunta.

Obviamente, para raspar um site rapidamente, os web scrapers vão querer usar o menor atraso possível. Eles usarão maneiras diferentes para acelerar o processo (por exemplo, raspar vários sites em paralelo; dar a impressão de que as solicitações são de vários usuários diferentes). Para os web scrapers, sempre haverá um trade-off entre as razões para ter um atraso e a necessidade de realizar o trabalho.

Para mais informações, consulte a entrada em Wikipedia

    
por 22.06.2017 / 00:13