Extraindo um valor de uma lista de URLs dentro de uma área protegida por senha

1

Eu tenho uma lista de centenas de URLs, dentro de uma conta protegida por senha, e tendo o seguinte formato:

https://somesite.com/somescript.php?nameA
https://somesite.com/somescript.php?nameB
https://somesite.com/somescript.php?nameC
...

Para cada uma dessas URLs, eu gostaria de extrair um valor de string da página da Web correspondente com esse valor sempre localizado entre uma prefixo-string específica e uma cadeia de caracteres de postfix e criar um arquivo CSV local com os dados extraídos de cada URL:

nameA,valueA
nameB,valueB
nameC,valueC
...

Existe alguma maneira simples ou script para fazer isso no Mac OS X?

Já experimentei o plugin iMacros para o Firefox, mas parece que não funciona, pelo menos no Mac OS X. Talvez Automator, mas não consigo descobrir como fazer isso ...

    
por user111780 02.01.2012 / 06:05

1 resposta

0

Isso deve ser relativamente fácil de fazer com iMacros . Se todas as páginas estiverem dentro da mesma conta protegida por senha, você poderá fazer o login normalmente através do navegador e depois executar o seu script. Mesmo que não estejam atrás do mesmo login e senha, é possível automatizar o processo de login, embora isso acrescente um nível de complexidade.

O iMacros retorna seus resultados em um formato csv. Se for difícil fazer com que o iMacros selecione o elemento HTML preciso que você deseja, geralmente selecionarei uma parte maior da página e, em seguida, extrairei a sequência exata de que preciso com uma função Mid () no Excel. A versão completa autônoma do iMacros tem alguns recursos úteis que não estão presentes no plug-in do Firefox (pelo menos na interface gráfica do usuário). Você pode usar o programa completo gratuitamente como uma avaliação de 30 dias.

Como alternativa, você pode usar o wget para baixar todas as páginas e, em seguida, trabalhar com elas localmente. Pode recuperar páginas de uma lista de URLs. O Wget também permite o login, embora eu não tenha tentado isso. Depois de tê-los local você pode processá-los com iMacros ou até mesmo uma macro executando o editor de texto, como o notepad ++.

Uma ferramenta mais poderosa seria Scraperwiki . Isso, no entanto, requer alguma experiência de programação.

    
por 15.11.2012 / 12:27