Captura semanal automatizada de uma página da web

1

Olhou em volta por uma hora, mas eu não estou chegando em nenhum lugar rapidamente.

Eu quero capturar uma página da web semanalmente que tenha preços nela. O site é um site de leilões para gado.

A diferença é que o nome da página de destino muda de semana para semana, portanto, preciso especificar um local de LINK na página inicial para obter a página desejada.

Eu poderia escrever algo em um dia ou dois para raspar a tela, mas deve haver um programa lá fora que já faz isso. Não me importo de escrever código, mas não gosto de reinventar a roda.

Acabei de receber o HTTrack por outras razões e, se o fizer, diga-o e decidirei. (Literalmente apenas d / levou 30 minutos atrás, então não olhei para isso ainda, a não ser para pegar um site para um cliente.)

Olhou para o Selenium muito rapidamente, mas isso parece ser um exagero para o que eu quero?

Um pouco mais de informação: É um link, espero, o mesmo local na página inicial.
Eu gostaria de salvá-lo com uma data pré-pendente para o nome do arquivo local. Eu prefiro fazer isso tudo no Windows, pois é o que eu sei o melhor. DEVE ser executado via agendador no Win 7!

Eventualmente, eu gostaria de raspar a página para reunir os preços e colocá-los no Excel, por isso, se alguém usou uma ferramenta para isso, seria ainda melhor. (Eu ainda quero salvar a página de preço localmente, como um backup para qualquer raspagem de tela que eu possa fazer.)

    
por Bob Housedorf 13.02.2012 / 00:47

2 respostas

1

Você pode fazer o download da página com algo como wget . Basta colocar o comando em um arquivo de lote e agendar o arquivo de lote para ser executado uma vez por semana.

No entanto, uma vez que você eventualmente quer analisar o arquivo, eu apenas verifico o open e escreva um script para salvar a página que você expandirá mais tarde para fazer a análise.

    
por 13.02.2012 / 02:57
0

Como um dos seus requisitos é realizar a tarefa no Windows, e seu link é facilmente definido e disponível na página inicial, recomendamos o uso de um script AutoIT para executar a função. Eu seguiria especificamente os exemplos listados para as Funções definidas pelo usuário do IE que têm uma biblioteca saudável de funções de suporte para reduzir a carga de programação para tarefas simples.

    
por 14.02.2012 / 19:36