Eu configurei a nova instância do Amazon EC2. Em um dia ou dois começaram a receber solicitações estranhas de "GET" dos IP do tipo "google bot-like" (por exemplo, 66.249.76.84, 66.249.74.152) cerca de um em 10 segundos (alguns exemplos):
66.249.74.152 - - [10/Apr/2013:06:05:02 +0000] "GET /play/gp4GbjXBD4B3?sh=04f2fd19ae2dd623e7135d29a1894f03&sh=f172a32c89190e28f9c27123d7c6cf43&sh=04f2fd19ae2dd623e7135d29a1894f03 HTTP/1.1" 404 295 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.76.84 - - [11/Apr/2013:03:51:44 +0000] "GET /api/levels/2ry7ZAh0Y91r HTTP/1.1" 404 295 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Eles estão verificando hashes em pastas como
/play/'some_hash_here'
/profile/'some_hash_here'
/level/'some_hash_here'
/api/'some_hash_here'
Eu nunca tive essas pastas neste site. Mas para fazer algo com isso eu tentei bloqueá-los no robots.txt
User-agent: *
Disallow:
Crawl-delay: 120
Disallow: /play
Disallow: /profile
Disallow: /level
Mas não ajudou em nada, apenas não lê o robots.txt.
Para se livrar de toda a bagunça que eles forneceram no meu arquivo error_log, eu criei regras no arquivo .htaccess como este
Redirect 301 /play 'some_other_site'
Redirect 301 /level 'some_other_site'
Redirect 301 /profile 'some_other_site'
Redirect 301 /api 'some_other_site'
Além disso, encontrei alguns vestígios do verdadeiro google bot que rastreou meu site, e seu comportamento era muito normal: ele solicitou apenas páginas que tinham links em páginas do meu site.
Como posso me livrar dessa varredura de fraude?