Extrair dados de um atlas on-line

4

Existe um atlas on-line do qual gostaria de extrair valores. O atlas fornece uma ferramenta ("Consulta") para extrair valores quando você clica em um local ou inclui uma região no mapa ou pode especificar a latitude / longitude de um ponto em que deseja o valor. Em vez de extrair valores manualmente, gostaria de automatizar a extração de dados usando a linha de comando; ou eu escreveria um script para extrair valores para uma longitude / latitude de entrada ou extrair todos os valores para todos os locais, desde que eu também possa obter a latitude / longitude dos pontos retornados. Qual utilitário poderia raspar os dados do atlas e fazer parte de um script de linha de comando? O scrapy parece promissor, mas talvez haja ferramentas melhores para isso. Ou se você pudesse me dizer qual idioma a ferramenta "Consulta" usa, isso me ajudaria a começar.

    
por KAE 08.08.2012 / 14:52

1 resposta

2

Este site usa muito javascript (jQuery).

Sugiro fazer o seguinte como um primeiro começo:

  1. Instalar o Firefox
  2. Instale o dados de violação addon
  3. Carregue o site, comece a adulterar
  4. Brinque com a ferramenta de consulta e dê uma olhada nos XMLHttpRequests gerados automaticamente (consulte Registros de dados de violação)

Talvez isso já seja suficiente para identificar as solicitações relevantes e como elas são criadas. Se isso não funcionar bem, você teria que ler as fontes javascript.

Como todas as solicitações são provavelmente apenas solicitações HTTP GET e HTTP POST com parâmetros específicos, você pode começar a automatizar, ex. com uma ferramenta como curl . Além disso, scrapy parece realmente promissor e parece trazer muitos recursos interessantes (mas não testei isso).

Em vez de usar o Firefox com o complemento de dados de Temper, você também pode usar qualquer outro navegador durante a captura do tráfego HTTP, por exemplo, com wireshark .

    
por 09.08.2012 / 16:20