Aranha / rastreia um site e obtém cada URL e título da página em um arquivo CSV

1

Estou mudando de um antigo site de carrinho de compras do ASP para um site do Drupal / Ubercart. Parte desse movimento é garantir que os links antigos sejam redirecionados para os novos. Para fazer isso, tudo o que preciso é uma maneira de obter uma lista de todos os links do site antigo.

De preferência, os resultados teriam o título da página e, idealmente, eu poderia dar a ela alguma maneira de retornar outros dados da página (por exemplo, um seletor de CSS).

Eu preferiria se estivesse no OS X, mas também posso usar aplicativos do Windows.

Eu tentei Integridade , mas a saída é quase impossível de decifrar, além de não parecer funcionar bem.

    
por Tyler Clendenin 02.08.2012 / 07:54

1 resposta

0

Se você não se importa de escrever scripts Perl ...

This module implements a configurable web traversal engine, for a robot or other web agent. Given an initial web page (URL), the Robot will get the contents of that page, and extract all links on the page, adding them to a list of URLs to visit.

    
por 02.08.2012 / 09:45