O que fazer com agentes de usuários falsificados? Raspadores fingindo ser aranhas

3

Eu tenho seguido algumas aranhas em nossos logs e fiz um traceroute em seu ip para descobrir que elas são, de fato, instâncias do EC2. Os agentes do usuário são listados como Google bot e msnbot, mas não são do Google ou do MS. Existe alguma coisa que eu possa fazer, é falsificar agentes do usuário uma prática comum? Eu estou supondo que se eu banir seu ip (o que eu fiz), eles apenas começarão uma nova instância e continuarão. Eu não quero proibir todas as instâncias do EC2.

    
por Ryan Detzel 21.03.2011 / 22:15

1 resposta

5

Quando você realmente começa a se aprofundar em logs, você verá que um grande número de robôs faz spoofing de cabeçalho; a maioria deles falsificando como o IE (alguns deles sem sucesso; os erros de digitação fazem com que o seu agente seja visto rapidamente!).

Há um interessante experimento do EFF que procura identificar usuários com os dados apresentados pelo navegador: Panopticlick . Coletar mais informações no nível do aplicativo para tentar bloquear poderia levá-lo a algum lugar, pois os nós que não são do navegador não retornarão alguns desses campos.

Mas, no mesmo sentido em que é improvável que o bloqueio de seus IPs funcione por muito tempo, é improvável que a tentativa de bloquear com base no user-agent (ou em qualquer outro critério exclusivo) funcione por muito tempo se você estiver determinado a enganá-lo. No final, não valerá o seu tempo ou energia para tentar bloquear todos os bots desonestos da rede; basta configurar o seu arquivo robots.txt, fique de olho nos mais desagradáveis que tentarem te acertar com injeção de SQL ou algo parecido, e fique tranquilo.

    
por 21.03.2011 / 22:36

Tags