Eu já tinha uma pergunta respondida sobre o web-scraping com o wget. mas à medida que leio um pouco mais, percebo que talvez esteja procurando por um programa de rastreamento da web. particularmente a parte sobre rastreadores da web sendo capazes de obter dados específicos como links ou, no meu caso, produtos.
Todos os produtos no meu site têm a seguinte convenção de nomenclatura, website.com/uniqueAlphaNumericID.html
Até onde eu sei, nenhuma geração de conteúdo dinâmico está sendo usada e apenas uma página por item no formato acima.
Eu deveria estar pensando em:
wget website.com | grep * .html
ou eu deveria estar olhando aranhas / crawlers?
Tags wget website web-crawler