Recuperação rápida de informações com uma estrutura fixa a partir de uma lista de links da Web

0

Eu tenho uma planilha do Excel que contém uma lista de links da Web (todos para o mesmo site, mas páginas diferentes). Todas essas páginas têm o mesmo layout / estrutura, e eu quero recuperar a mesma informação (valores diferentes em páginas diferentes) de cada página / link.

Obviamente, posso clicar em cada link em uma célula, ir para a página e anotar as informações manualmente. No entanto, existem centenas deles e vejo isso como algo que pode ser automatizado. Como posso abordar isso?

    
por skyork 28.12.2016 / 00:39

1 resposta

2

você pode copiá-los / colá-los do excel no bloco de notas, que pode ser facilmente salvo como texto simples. Se você receber um link por linha, salve esse arquivo como, por exemplo, blah.a e download wget, então não é mais uma coisa do excel.

Agora, digamos que você produziu um arquivo de links, então você pode usar um comando chamado wget (que você teria que baixar e não tem nada a ver com o excel). Então vamos dizer que cada linha do arquivo tem uma linha como link Então você faz wget -i blah.a e então ele vai baixar cada link lá .. mas você também deve incluir um atraso para que não atrapalhe o servidor, então wget -i blah.a , mas com algo como -t -T e -w. -t 1 -T 5 -w 1 (tentativas, tempo limite e espera respectivamente), portanto, configure as coisas como nova tentativa e tempo limite e aguarde. Então wget -t 1 -T 5 -w 1 -i blah.a<ENTER> Obviamente isto está em wget --help. (com ainda mais detalhes no manual do wget que está online). Você pode obter wget com por exemplo cygwin.

    
por 28.12.2016 / 06:16