Como rastrear uma grande lista de URLs? [fechadas]

Question

Como rastrear uma grande lista de URLs? [fechadas]

#1 resposta do (0 votos)

1

Eu tenho uma lista enorme de URLs. Parece algo assim:

www.example.com/api/users/1.json
www.example.com/api/users/2.json
www.example.com/api/users/3.json

E continua cerca de 400.000 vezes. A intenção é encontrar uma string específica de texto em todas as páginas. Alguém sabe como eu faria isso?

web-crawler

por DangerBob Gaming 12.06.2018 / 01:52

1 resposta

Tags web-crawler

O visualizador de PDF do Chrome é exibido na mesma página Os auscultadores Bluetooth estão emparelhados mas não conseguem ligar sem redescobrir

score 0 · Answer 1

Eu não tenho experiência com este projeto, mas pesquisando eu encontrei um chamado Scrapy . Está escrito em Python e é discutido em vários lugares, como estes:

no StackOverflow - link , onde é sugerido que você execute o Scrapy como um daemon, scrapyd .
Desenvolva seu primeiro rastreador da web em Python Scrapy
Exemplo de raspagem - quotesbot

O segundo link acima também mostra este exemplo:

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class ElectronicsSpider(CrawlSpider):
    name = "electronics"
    allowed_domains = ["www.olx.com.pk"]
    start_urls = [
        'https://www.olx.com.pk/computers-accessories/',
        'https://www.olx.com.pk/tv-video-audio/',
        'https://www.olx.com.pk/games-entertainment/'
    ]

    rules = (
        Rule(LinkExtractor(allow=(), restrict_css=('.pageNextPrev',)),
             callback="parse_item",
             follow=True),)

    def parse_item(self, response):
        print('Processing..' + response.url)

Você pode alterar os itens acima para incluir todos os seus URLs ou colocá-los em um arquivo separado e ler esse arquivo no Python.

Se eu fosse você, eu estaria inclinado a começar com o terceiro link, pois este projeto parece assustadoramente semelhante ao que você está tentando realizar.