Yahoo Pipes vem à mente, é fácil de usar para um não-programador, embora você realmente deva aprender a regex para obter seu potencial máximo.
Estamos criando um site de mashup que extrai informações de várias fontes pela web. Muitos desses sites não fornecem feeds RSS ou APIs para acessar as informações que eles fornecem. Isso nos deixa com a captura de tela como nosso método para coletar os dados.
Existem muitas ferramentas de script escritas em diferentes linguagens de script para captura de tela que exigem que você escreva scripts de raspagem na linguagem em que o scraper foi escrito. Scrapy, scrAPI e scrubyt são alguns escritos em Ruby e Python.
Existem outras ferramentas baseadas na web que eu vi como o Dapper, que criam feeds XML ou RSS com base em uma página da web. Ele tem uma bela interface baseada na Web que não requer habilidades de script para usar. Esta seria uma ótima ferramenta, se fosse capaz de percorrer várias páginas para coletar dados de centenas de páginas de resultados.
Precisamos de algo que vá coletar informações de sites paginados, da mesma forma que o scrubyt, mas com uma interface de usuário que um não-programador possa usar. Vamos criar nossa própria solução se precisarmos, provavelmente usando o scrubyt, mas se houver uma solução melhor, queremos usá-la. Existe algo parecido com isto?
Yahoo Pipes vem à mente, é fácil de usar para um não-programador, embora você realmente deva aprender a regex para obter seu potencial máximo.
Scrapinghub (dos criadores do Scrapy) oferece um serviço de pagamento para não-programadores semelhante a Mozenda .
Eu tenho usado o iMacros para coletar dados de sites. É utilizável por alguém sem experiência em programação e com algumas habilidades básicas de programação você pode estender suas capacidades. Aqui está um tutorial .
iMacros é particularmente útil se você precisar executar alguma ação para recuperar os dados. Ele pode clicar nos botões, navegar pelo flash, selecionar menus, preencher formulários, etc.
Há também Scraperwiki , que requer habilidades de programação. Não programadores podem pagar por assistência.
Espero que o Datatracker seja lançado em breve. É voltado precisamente para esse tipo de trabalho, mas para usuários sem nenhuma habilidade em programação.
Este artigo da Wikipédia contém muitas informações sobre o assunto, incluindo uma lista de 15 rastreadores da Web de código aberto:
Tags web