Como obter a origem da página de uma página específica de resultados de pesquisa do Google?

0

Eu quero escrever um código para dar os nomes dos personagens em séries de TV ou filmes usando um script de shell ... Eu planejo fazer isso exaltando a origem da página do resultado da pesquisa do Google para o qual eu serei exigindo a origem da página dos links ... por exemplo, este link Eu tentei usar diretamente wget mas dá código de erro 8 e também enrolar -L alimenta a fonte de página "errada"

    
por juggernauthk108 02.11.2016 / 17:07

1 resposta

0

Se você olhar as mensagens do log do wget, verá que finalmente obterá "403 Proibido" do Google.

Portanto, sinta-se convidado a consultar esta resposta do Stackoverflow . O Google não quer que sua página de resultados de pesquisa seja usada de maneira automatizada, e suponho que eles tenham boas razões.

Se você quiser fazer isso de qualquer maneira, pode definir outra string do User Agent com wget --user-agent=Chrome -O results.html 'https://www.google.com/search?hl=en&q=iron%20man%20character%20names'

No entanto, a resposta que você recebe do Google não é fácil de analisar - talvez você possa usar um banco de dados de filmes para essa tarefa?

    
por 26.11.2016 / 15:12