Várias perguntas estão sendo feitas aqui, vou tentar respondê-las na ordem correta.
Is it possible to tell Google (or another search engine) to search a specific keyword EXACTLY only on those 307 websites?
Dê uma olhada nas opções de pesquisa do google. Você pode procurar por um termo exato citando "assim". Você pode então filtrar por domínio (não o mesmo que url!) Com a opção site:
. No seu caso, você criaria a string de pesquisa nesse formato:
"keyword" site:site1.com site:site2.com ...site:site307.com
...cycle through the list with a script... But wouldn't Google think you are a bot?
Uma abordagem comum ao realizar várias pesquisas no Google por meio de um script é inserir atrasos (possivelmente aleatórios) para não parecer suspeito.
...download those 307 webpages with wget... That would take a long time.
Se você precisar verificar esses sites de vez em quando, considere salvar uma cópia local das páginas da Web e atualizá-las periodicamente; A pesquisa local deve então ser muito rápida. Caso contrário, o Google será mais rápido porque funciona com resultados em cache e não precisa esperar por conexão e download. Mas, a menos que um site esteja fora do ar ou passando por problemas sérios, ele deve acabar em 30 segundos ou mais. Supondo que você tenha uma lista de URLs em um arquivo chamado list.txt
, basta executar:
cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'
para ver o conteúdo correspondente ou:% cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'
para URLs ou:
cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'
para mostrar os dois.
Doesn't Google have a built-in method to search from a list of URLs?
Sim, há Pesquisa personalizada :
With Google Custom Search, you can:
- Create custom search engines that search across a specified collection of sites or pages