Eu não tenho experiência com este projeto, mas pesquisando eu encontrei um chamado Scrapy . Está escrito em Python e é discutido em vários lugares, como estes:
- no StackOverflow - link , onde é sugerido que você execute o Scrapy como um daemon,
scrapyd
. - Desenvolva seu primeiro rastreador da web em Python Scrapy
- Exemplo de raspagem - quotesbot
O segundo link acima também mostra este exemplo:
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
class ElectronicsSpider(CrawlSpider):
name = "electronics"
allowed_domains = ["www.olx.com.pk"]
start_urls = [
'https://www.olx.com.pk/computers-accessories/',
'https://www.olx.com.pk/tv-video-audio/',
'https://www.olx.com.pk/games-entertainment/'
]
rules = (
Rule(LinkExtractor(allow=(), restrict_css=('.pageNextPrev',)),
callback="parse_item",
follow=True),)
def parse_item(self, response):
print('Processing..' + response.url)
Você pode alterar os itens acima para incluir todos os seus URLs ou colocá-los em um arquivo separado e ler esse arquivo no Python.
Se eu fosse você, eu estaria inclinado a começar com o terceiro link, pois este projeto parece assustadoramente semelhante ao que você está tentando realizar.