O que fazer com agentes de usuários falsificados? Raspadores fingindo ser aranhas

Question

O que fazer com agentes de usuários falsificados? Raspadores fingindo ser aranhas

#1 resposta do (5 votos)

3

Eu tenho seguido algumas aranhas em nossos logs e fiz um traceroute em seu ip para descobrir que elas são, de fato, instâncias do EC2. Os agentes do usuário são listados como Google bot e msnbot, mas não são do Google ou do MS. Existe alguma coisa que eu possa fazer, é falsificar agentes do usuário uma prática comum? Eu estou supondo que se eu banir seu ip (o que eu fiz), eles apenas começarão uma nova instância e continuarão. Eu não quero proibir todas as instâncias do EC2.

scraping

por Ryan Detzel 21.03.2011 / 21:15

1 resposta

Tags scraping

Como se conectar a uma VPN com um certificado usando o cliente VPN enviado no Mac OS X 10.6.6? Que * light * ubuntu para usar como um servidor central git? [fechadas]

score 5 · Accepted Answer

Quando você realmente começa a se aprofundar em logs, você verá que um grande número de robôs faz spoofing de cabeçalho; a maioria deles falsificando como o IE (alguns deles sem sucesso; os erros de digitação fazem com que o seu agente seja visto rapidamente!).

Há um interessante experimento do EFF que procura identificar usuários com os dados apresentados pelo navegador: Panopticlick . Coletar mais informações no nível do aplicativo para tentar bloquear poderia levá-lo a algum lugar, pois os nós que não são do navegador não retornarão alguns desses campos.

Mas, no mesmo sentido em que é improvável que o bloqueio de seus IPs funcione por muito tempo, é improvável que a tentativa de bloquear com base no user-agent (ou em qualquer outro critério exclusivo) funcione por muito tempo se você estiver determinado a enganá-lo. No final, não valerá o seu tempo ou energia para tentar bloquear todos os bots desonestos da rede; basta configurar o seu arquivo robots.txt, fique de olho nos mais desagradáveis que tentarem te acertar com injeção de SQL ou algo parecido, e fique tranquilo.