endereço IP de spiders e web bots “oficiais”

3

Existe uma API oficial para o iplists.com de onde posso obter a lista de aranhas?

Minha intenção é colocar na lista de permissões esses IPs para a captura de sites.

    
por Quintin Par 14.03.2012 / 04:00

2 respostas

8

Não que eu saiba, e isso pode mudar a qualquer momento, a critério dos operadores bot.

O Google oferece algumas orientações e explicações específicas sobre isso :

The problem with that is that if/when the IP ranges of our crawlers change, not everyone will know to check. In fact, the crawl team migrated Googlebot IPs a couple years ago and it was a real hassle alerting webmasters who had hard-coded an IP range.

e eles sugerem usar uma verificação de DNS (encaminhar e inversa) para verificar:

Telling webmasters to use DNS to verify on a case-by-case basis seems like the best way to go. I think the recommended technique would be to do a reverse DNS lookup, verify that the name is in the googlebot.com domain, and then do a corresponding forward DNS->IP lookup using that googlebot.com name; eg:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

I don't think just doing a reverse DNS lookup is sufficient, because a spoofer could set up reverse DNS to point to crawl-a-b-c-d.googlebot.com.

Este é provavelmente o melhor conselho geral, mas é um pouco intensivo em recursos (ciclos de CPU para pesquisas de DNS).

    
por 14.03.2012 / 04:06
1

Não há uma lista de endereços IP para "bons" bots de mecanismo de pesquisa que conheço e, se houvesse, seria terrivelmente desatualizado rapidamente, como você já descobriu.

Uma coisa que você pode fazer é criar uma armadilha de bots. Isso é simples na teoria: você cria uma página vinculada ao seu site, mas oculta de usuários normais (por exemplo, por meio de truques de CSS) e, em seguida, Disallow it em robots.txt . Você, então, espera uma semana , pois os mecanismos de pesquisa legítimos podem armazenar em cache robots.txt por tanto tempo e, em seguida, começar a proibir qualquer coisa que atinja a armadilha página (por exemplo, com fail2ban).

    
por 29.08.2012 / 10:14