Search Engine Bot - Grande quantidade de acessos

1

Comecei a rastrear strings de agente de usuário em um site no início de cada sessão. Olhando para os dados para este mês até agora eu estou vendo no motor de busca bot que continua chegando muito ...

Mozilla / 5.0 (compatível; Baiduspider / 2.0; + link )

De 01/09/2011 a 13/09/2011 Eu registrei 2090 acessos desse user-agent. De outros mecanismos de pesquisa, estou acompanhando um número muito menor de acessos ...

Mozilla / 5.0 (compatível; Yahoo! Slurp; link ) - 353

Mozilla / 5.0 (compatível; Googlebot / 2.1; + link ) - 175

Mozilla / 5.0 (compatível; bingbot / 2.0; + link ) - 110

www.baidu.com parece ser uma versão chinesa do Google. Existe uma maneira de estrangular seu bot? Eu não me importo que eles nos indexem ... na verdade, é provavelmente uma coisa boa, já que temos uma grande população asiática utilizando o site, mas eles parecem estar fazendo isso muito mais.

    
por Justin808 13.09.2011 / 22:25

2 respostas

2

Você quer controlar o bot, mas não parece saber POR QUE deseja fazer isso.
Você está tendo um impacto no desempenho? O tráfego está empurrando você para um limite de largura de banda ou transferência?

Acelerar o bot "só porque" é um desperdício de esforço - Se não estiver doendo, sugiro que você o deixe em paz.

Se estiver causando problemas, você pode tomar medidas usando sitemaps.xml para limitar a frequência com que o bot rastreia ou < href="https://serverfault.com/questions/73075/throttle-connections-to-apache-load-balancer"> diretivas robots.txt para limitar a taxa de rastreamento. Note que ambos podem ser ignorados, o que apenas lhe deixaria a opção de bloquear o agente do usuário usando (por exemplo) uma regra de mod_rewrite do Apache - isso também resultaria na sua indexação ...

    
por 13.09.2011 / 22:42
0

Eu escrevi essa resposta para uma pergunta semelhante ontem: Bloqueio por string user-agent em httpd.conf não efetivo

O que basicamente diz isso:

Se você não quiser que os user-agents (robots) específicos indexem você, siga [as] etapas. Se você não quiser que QUALQUER robô indexe você, siga [as2] etapas.

Ele usa o arquivo httpd.conf ou, se for mais fácil, o arquivo .htaccess e define algumas regras de reconfiguração. Espero que seja útil para você. Quanto a limitar a quantidade de vezes que eles podem indexá-lo, você precisará (como o google) provar que é o proprietário do site, depois acessar as "ferramentas para webmasters" e selecionar taxas de indexação muito lentas. Mas aqui está minha entrada:

<2-cents>
Unless the bots slow your server down, let it be. They don't hurt unless they are "bad bots" and access sensitive data.
</2-cents>

Boa sorte.

    
por 13.09.2011 / 22:40