Como posso extrair frases de qualquer mecanismo de pesquisa?

1

Para pessoas que estão aprendendo uma língua estrangeira, é muito útil ver o uso de palavras específicas em uma frase. Por exemplo, você quer ver diferentes inflexões de um verbo. Eu costumava olhar para o uso de palavras em imdb > seção de pesquisa de citações, ele quase armazena todas as escrituras de filmes de Hollywood. Eu quero fazer uma ferramenta de linha de comando para pesquisar qualquer palavra em um mecanismo de pesquisa e exibir os resultados na lista de frases ordenadas. Eu encontrei alguns script perl para analisar um texto em frases. Como eu posso extrair frases de qualquer mecanismo de busca e listá-las em frases como no buscador bilingue de frases jukuu.com?

    
por kenn 26.09.2013 / 16:12

1 resposta

1

Exemplo com INDB, prisioneiro .

Comando

/tmp$ wget http://www.imdb.com/title/tt1392214/?ref_=hm_cht_t1

Isso mostrará algumas coisas ...

--14:17:11--  http://www.imdb.com/title/tt1392214/?ref_=hm_cht_t1
           => 'index.html?ref_=hm_cht_t1'
Resolving www.imdb.com... 72.21.215.52
Connecting to www.imdb.com|72.21.215.52|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]

    [                                        ] 186,103      389.18K/s

14:17:12 (388.45 KB/s) - 'index.html?ref_=hm_cht_t1' saved [186103]

Resultado:

~/tmp$ ls
index.html?ref_=hm_cht_t1

E agora você pode verificar o arquivo ...

grep Directed\ by index.html\?ref_\=hm_cht_t1
<meta name="description" content="Directed by Denis Villeneuve.  With Hugh Jackman, Jake Gyllenhaal, Viola Davis, Melissa Leo. When Keller Dover's daughter and her friend go missing, he takes matters into his own hands as the police pursue multiple leads and the pressure mounts. But just how far will this desperate father go to protect his family?" />
<meta property="og:description" content="Directed by Denis Villeneuve.  With Hugh Jackman, Jake Gyllenhaal, Viola Davis, Melissa Leo. When Keller Dover's daughter and her friend go missing, he takes matters into his own hands as the police pursue multiple leads and the pressure mounts. But just how far will this desperate father go to protect his family?" />

Acima o exemplo é o núcleo de como você pode fazê-lo mais elaborado: ter um tipo de usuário em algo (s) que ele deseja pesquisar, wget google com essa palavra. Analise os resultados para URLs, especifique os URLs, extraia o conteúdo desses resultados e apresente-os àquele usuário.

    
por Rinzwind 26.09.2013 / 16:23