web spidering / crawling, posso fazê-lo ou apenas mecanismos de pesquisa?

Question

web spidering / crawling, posso fazê-lo ou apenas mecanismos de pesquisa?

1

Eu já tinha uma pergunta respondida sobre o web-scraping com o wget. mas à medida que leio um pouco mais, percebo que talvez esteja procurando por um programa de rastreamento da web. particularmente a parte sobre rastreadores da web sendo capazes de obter dados específicos como links ou, no meu caso, produtos.
Todos os produtos no meu site têm a seguinte convenção de nomenclatura, website.com/uniqueAlphaNumericID.html
Até onde eu sei, nenhuma geração de conteúdo dinâmico está sendo usada e apenas uma página por item no formato acima. Eu deveria estar pensando em:
wget website.com | grep * .html
ou eu deveria estar olhando aranhas / crawlers?

wget website web-crawler

por fightermagethief 07.03.2011 / 07:35

0 respostas

Tags wget website web-crawler

Proxy para coletar endereços de domínio DocTypes personalizados do Dreamweaver