Você tentou fazer o script com wget e cron? Veja a bandeira --spider
do wget. Parece ser tudo o que você precisa, além do cron, para executá-lo ocasionalmente.
Estou pesquisando uma ferramenta FLOSS que faz o download de todas as páginas (e recursos incorporados, por exemplo, imagens) vinculadas em um sitemap XML (construído de acordo com o link ).
A ferramenta deve "rastrear" o sitemap regularmente e procurar URLs novos e excluídos e alterações no elemento lastmod
. Assim, sempre que uma página é adicionada / excluída / atualizada, a ferramenta deve aplicar as alterações.
Alguns sitemaps listam sub-sitemaps em sitemapindex
→ sitemap
. A ferramenta deve entender isso e carregar todos os sub-sitemaps vinculados e procurar URLs lá.
Eu sei que existem ferramentas que me permitem extrair todos os URLs do sitemap, para que eu possa alimentá-los para wget ou ferramentas semelhantes (veja por exemplo: Extrair links de um sitemap (xml) ). Mas isso não ajudaria em ser notado sobre atualizações de páginas. Acompanhamento das próprias páginas da web para atualizações não funciona, porque o conteúdo "secundário" nas páginas muda diariamente, mas lastmod
só é atualizado quando o conteúdo relevante é alterado.
Você tentou fazer o script com wget e cron? Veja a bandeira --spider
do wget. Parece ser tudo o que você precisa, além do cron, para executá-lo ocasionalmente.