Como rastrear uma grande lista de URLs? [fechadas]

1

Eu tenho uma lista enorme de URLs. Parece algo assim:

www.example.com/api/users/1.json
www.example.com/api/users/2.json
www.example.com/api/users/3.json

E continua cerca de 400.000 vezes. A intenção é encontrar uma string específica de texto em todas as páginas. Alguém sabe como eu faria isso?

    
por DangerBob Gaming 12.06.2018 / 03:52

1 resposta

0

Eu não tenho experiência com este projeto, mas pesquisando eu encontrei um chamado Scrapy . Está escrito em Python e é discutido em vários lugares, como estes:

O segundo link acima também mostra este exemplo:

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class ElectronicsSpider(CrawlSpider):
    name = "electronics"
    allowed_domains = ["www.olx.com.pk"]
    start_urls = [
        'https://www.olx.com.pk/computers-accessories/',
        'https://www.olx.com.pk/tv-video-audio/',
        'https://www.olx.com.pk/games-entertainment/'
    ]

    rules = (
        Rule(LinkExtractor(allow=(), restrict_css=('.pageNextPrev',)),
             callback="parse_item",
             follow=True),)

    def parse_item(self, response):
        print('Processing..' + response.url)

Você pode alterar os itens acima para incluir todos os seus URLs ou colocá-los em um arquivo separado e ler esse arquivo no Python.

Se eu fosse você, eu estaria inclinado a começar com o terceiro link, pois este projeto parece assustadoramente semelhante ao que você está tentando realizar.

    
por 12.06.2018 / 04:29