Pesquisar uma palavra-chave exatamente em uma lista específica de páginas da web?

2

Eu tenho uma lista de 307 URLs de páginas da web. É possível dizer ao Google (ou outro mecanismo de busca) para pesquisar uma palavra-chave específica EXATAMENTE apenas nesses 307 sites?

Eu li alguns conselhos que dizem para percorrer a lista com um script ou similar e realizar uma pesquisa no Google para cada item da lista. Mas isso não faria o Google pensar que você é um bot e bloquear as pesquisas?

Outro método sugerido foi o de fazer o download dessas 307 páginas da web com wget (talvez usando um script) ou similar e fazer uma pesquisa local nas páginas da web baixadas. Mas isso levaria muito tempo enquanto uma pesquisa no Google seria quase instantânea.

O Google não tem um método integrado para pesquisar a partir de uma lista de URLs?

    
por user1580348 17.04.2016 / 15:58

1 resposta

2

Várias perguntas estão sendo feitas aqui, vou tentar respondê-las na ordem correta.

Is it possible to tell Google (or another search engine) to search a specific keyword EXACTLY only on those 307 websites?

Dê uma olhada nas opções de pesquisa do google. Você pode procurar por um termo exato citando "assim". Você pode então filtrar por domínio (não o mesmo que url!) Com a opção site: . No seu caso, você criaria a string de pesquisa nesse formato:

"keyword" site:site1.com site:site2.com ...site:site307.com

...cycle through the list with a script... But wouldn't Google think you are a bot?

Uma abordagem comum ao realizar várias pesquisas no Google por meio de um script é inserir atrasos (possivelmente aleatórios) para não parecer suspeito.

...download those 307 webpages with wget... That would take a long time.

Se você precisar verificar esses sites de vez em quando, considere salvar uma cópia local das páginas da Web e atualizá-las periodicamente; A pesquisa local deve então ser muito rápida. Caso contrário, o Google será mais rápido porque funciona com resultados em cache e não precisa esperar por conexão e download. Mas, a menos que um site esteja fora do ar ou passando por problemas sérios, ele deve acabar em 30 segundos ou mais. Supondo que você tenha uma lista de URLs em um arquivo chamado list.txt , basta executar:

cat "list.txt" | parallel 'wget -q -O - {} | grep keyword' para ver o conteúdo correspondente ou:% cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi' para URLs ou: cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi' para mostrar os dois.

Doesn't Google have a built-in method to search from a list of URLs?

Sim, há Pesquisa personalizada :

With Google Custom Search, you can:
- Create custom search engines that search across a specified collection of sites or pages

    
por 26.07.2017 / 12:18