Baixe / atualize as páginas da Web listadas no sitemap XML [closed]

0

Estou pesquisando uma ferramenta FLOSS que faz o download de todas as páginas (e recursos incorporados, por exemplo, imagens) vinculadas em um sitemap XML (construído de acordo com o link ).

A ferramenta deve "rastrear" o sitemap regularmente e procurar URLs novos e excluídos e alterações no elemento lastmod . Assim, sempre que uma página é adicionada / excluída / atualizada, a ferramenta deve aplicar as alterações.

Alguns sitemaps listam sub-sitemaps em sitemapindexsitemap . A ferramenta deve entender isso e carregar todos os sub-sitemaps vinculados e procurar URLs lá.

Eu sei que existem ferramentas que me permitem extrair todos os URLs do sitemap, para que eu possa alimentá-los para wget ou ferramentas semelhantes (veja por exemplo: Extrair links de um sitemap (xml) ). Mas isso não ajudaria em ser notado sobre atualizações de páginas. Acompanhamento das próprias páginas da web para atualizações não funciona, porque o conteúdo "secundário" nas páginas muda diariamente, mas lastmod só é atualizado quando o conteúdo relevante é alterado.

    
por unor 13.10.2012 / 17:04

1 resposta

1

Você tentou fazer o script com wget e cron? Veja a bandeira --spider do wget. Parece ser tudo o que você precisa, além do cron, para executá-lo ocasionalmente.

    
por 26.10.2012 / 18:13