Como evitar que bots tentem adivinhar um link no meu site

5

Meu relatório de logwatch que eu instalei recentemente me mostra isso:

--------------------- httpd Begin ------------------------
0.78 MB transferred in 5864 responses  (1xx 0, 2xx 4900, 3xx 0, 4xx 964, 5xx 0)
160 Images (0.16 MB),
857 Content pages (0.62 MB),
4847 Other (0.00 MB)

Requests with error response codes
404 Not Found
  /%E2%80%98planeat%E2%80%99-film-explores-l ... greenfudge-org/: 1 Time(s)
  /10-foods-to-add-to-the-brain-diet-to-help ... -function/feed/: 1 Time(s)
  /10-ways-to-reboot-your-body-with-healthy- ... s-and-exercise/: 1 Time(s)
  /bachmann-holds-her-ground-against-raising ... com-blogs/feed/: 1 Time(s)
  /behind-conan-the-barbarians-diet/: 1 Time(s)
  /tag/dietitian/: 1 Time(s)
  /tag/diets/page/10/: 1 Time(s)
  /tag/directory-products/feed/: 1 Time(s)
  /wp-content/uploads/2011/06/1309268736-49.jpg: 1 Time(s)
  /wp-content/uploads/2011/06/1309271430-30.jpg: 1 Time(s)
  /wp-content/uploads/2011/06/1309339847-35.jpg: 1 Time(s)

minha nota aqui : há muitos desses tipos de solicitações, como acima, e colei apenas alguns por causa da clareza.

  A total of 12 ROBOTS were logged
  Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 2 Time(s)
  Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) 5 Time(s)
  Twitterbot/1.0 1 Time(s)
  Mozilla/5.0 (compatible; AhrefsBot/2.0; +http://ahrefs.com/robot/) 4 Time(s)
  Sosospider+(+http://help.soso.com/webspider.htm) 3 Time(s)
  msnbot/2.0b (+http://search.msn.com/msnbot.htm)._ 1 Time(s)
  Mozilla/5.0 (compatible; MJ12bot/v1.4.2; http://www.majestic12.co.uk/bot.php?+) 1    Time(s)
  msnbot-media/1.1 (+http://search.msn.com/msnbot.htm) 77 Time(s)
  Mozilla/5.0 (compatible; Ezooms/1.0; [email protected]) 1 Time(s)
  Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) 17 Time(s)
  Baiduspider+(+http://www.baidu.com/search/spider.htm) 11 Time(s)
  Mozilla/5.0 (compatible; Butterfly/1.0; +http://labs.topsy.com/butterfly/)    Gecko/2009032608 Firefox/3.0.8 1 Time(s)
  ---------------------- httpd End -------------------------

Então, eu estou pensando que isso é uma espécie de bot (e, potencialmente, um dos listados acima), então você pode me orientar sobre como eu poderia impedi-los de adivinhar os links na esperança de encontrar conteúdo?

edit: desde que eu possuo um servidor VPS, há muitos domínios nele. Você pode me dizer como posso saber em qual domínio 404 particular aconteceu? Como esta linha por exemplo:     / tag / dietista /

    
por Nikola 07.03.2012 / 12:28

4 respostas

7

Você não, realmente, mais do que pode impedir usuários comuns de adivinhar links. Proteja corretamente seu conteúdo e isso não será problema de qualquer maneira.

Links obscuros não são uma maneira segura de ocultar as coisas.

Você pode garantir que você tenha um robots.txt configurado corretamente - isso impedirá que a maioria dos bots legítimos.

    
por 07.03.2012 / 12:33
4

Uma maneira seria usar o fail2ban e configurá-lo para atender às suas necessidades. Resumindo: entre os outros recursos, o fail2ban pode seguir seu log de acesso do Apache e, depois de X, o tipo de correspondência Y pode colocar o cliente de acesso em uma penalidade de Z minutos, bloqueando o IP do cliente por XX minutos.

Normalmente, o suficiente para assustar os bots, mas cuidado, isso pode muito bem bloquear usuários legítimos se você não for cuidadoso o suficiente.

    
por 07.03.2012 / 12:36
3

Os indexadores de mecanismos de pesquisa não adivinham links - eles apenas os seguem, a menos que sejam dissuadidos por uma regra de nofollow ou robots.txt.

Se você tiver solicitações de coisas que não existem no bot de um mecanismo de pesquisa - o rastreador está seguindo um link em uma página acessível publicamente que aponta para ele, a ação correta é corrigir / remover a referência.

Se for um bot malicioso - tudo o que você pode fazer é detectá-lo e bloquear o acesso. Se o bot está se anunciando - é fácil, por exemplo, bloquear com uma regra de reescrita

    
por 07.03.2012 / 13:10
0

Você pode adicionar informações do Virtualhost ao log ou usar logs separados por VirtualHost

Veja Documentação dos arquivos de log do Apache

    
por 07.03.2012 / 15:23