Que sites rejeitam solicitações do rastreador?

1

Existe algum site que possa ser rejeitado por um rastreador? Estou usando o rastreador do Burp Suite para rastrear os sites.

Eu quero saber quando e em quais casos um rastreador não consegue recuperar os resultados, pois preciso criar um site que rejeite as solicitações do rastreador.

Eu tenho executado o rastreador mencionado acima em sites aleatórios, mas não consegui encontrar nenhum site específico que rejeitasse as solicitações do rastreador. De alguma forma, o Burp Suite conseguiu obter todos os dados dos sites.

Isso é possível? Quais sites rejeitam essas solicitações de rastreador?

    
por rakesh 06.10.2011 / 09:37

2 respostas

4

Você está procurando o robots.txt ?

Basta colocar isso em um arquivo chamado robots.txt em sua webroot e o site não será rastreado

User-agent: *
Disallow: /

Existem muitas maneiras de ajustar o comportamento, visite o link para saber mais.

    
por 06.10.2011 / 09:47
2

Nifle mencionions robots.txt . Esse é um mecanismo cooperativo para que as aranhas da WWW reconheçam sites que não querem ser rastreados. Na verdade, rejeitar o rastreador é uma coisa um pouco diferente, que, de uma perspectiva ampla, poucos sites da Web fazem (já que robots.txt existe).

É feito pelo servidor HTTP de conteúdo para o site "sabendo" os endereços IP, User-Agent: cabeçalhos ou outras informações associadas a uma aranha WWW conhecida, e se comportando de maneira diferente quando reconhece uma aranha solicitando uma página / arquivo / imagem.

Existem várias variações importantes sobre este tema:

  • Sites de publicidade que pretendem ter conteúdo real para spiders da WWW, mas quando uma pessoa real com um navegador da WWW aparecer, veiculem apenas anúncios ou vincule as fazendas.
  • Sites de conteúdo exclusivo para assinatura que apresentam as informações que estão por trás do custo de custo para o spider WWW, para que ele seja indexado, mas não para pessoas com navegadores WWW, a menos que tenham se inscrito.
  • Sites que não querem ser rastreados e que, portanto, apresentam páginas em branco ou dão respostas a erros para spiders da WWW.

Como mencionado, existem maneiras melhores de fazer pelo menos as duas últimas, e assim, fazer as coisas dessa maneira é raro na prática. Fazer as coisas dessa maneira leva a uma corrida armamentista entre as empresas de indexação da WWW e os provedores de sites da WWW.

Na mão emocionante, isso não irá combater seu "rastreador do site Burp" mesmo assim . Inicialmente, não é uma aranha WWW, mas um analisador de dados passivo que funciona fora do tráfego, gerado por humanos com navegadores WWW, visto através de um servidor HTTP proxy.

    
por 06.10.2011 / 11:42