Como os sites detectam bots atrás de proxies ou redes de empresas?

12

Como grandes sites (por exemplo, a Wikipédia) lidam com bots que estão por trás de outro mascarador de IP? Por exemplo, na minha universidade, todos pesquisam na Wikipédia, dando uma carga significativa. Mas, até onde sei, a Wikipedia só pode saber o IP do roteador da universidade, então se eu configurar um bot "solto" (com apenas um pequeno atraso entre pedidos), a Wikipedia pode banir meu bot sem proibir toda a organização? pode um site realmente banir um IP por trás de uma rede organizacional?

    
por user4052054 18.04.2016 / 20:11

3 respostas

21

Não, eles banirão o IP público e todos que forem NAT para esse IP também serão banidos.

Embora pelo menos no empilhamento, se pensamos que vamos proibir uma faculdade ou algo assim, vamos entrar em contato com eles para rastreá-los e acabar com o problema.

    
por 18.04.2016 / 20:14
1

Um site não pode banir diretamente um IP que está por trás do NAT. Ele poderia atuar em IPs passados por proxies HTTP que não anonimizam - quando um proxy desse tipo encaminha uma solicitação, ele normalmente anexa esse endereço a um cabeçalho X-Forwarded-For, portanto, se o acesso de sua rede privada tiver que ser feito por meio de tal proxy o IP interno pode ser exposto; no entanto, a maioria dos sites (incluindo o wikipedia) não confiaria nas informações contidas nesse cabeçalho, porque é fácil falsificar implicar IPs inocentes ou evadir proibições.

Existem outras técnicas que tentam identificar exclusivamente usuários independentemente do endereço IP. Você pode interrogar um navegador da Web para obter muitas informações sobre ele e sobre o sistema em que está sendo executado, como o user-agent, a resolução da tela, a lista de plug-ins etc. - consulte link para um exemplo disso na prática. Você poderia usar essas impressões digitais para controlar o acesso, embora dependendo do design do site você possa interagir sem se envolver com o processo de impressão digital, e mesmo se você não puder um bot poderia fornecer dados espúrios e aleatórios para evitar ter um impressão digital consistente se você estiver ciente de que esse tipo de proteção está em vigor. Esse método de controle também corre o risco de falsos positivos, especialmente quando se trata de dispositivos móveis onde provavelmente haverá um grande número de clientes executando clientes de estoque idênticos em hardware de estoque idêntico (a maioria das pessoas em um modelo específico do iPhone executando uma versão específica do iOS , por exemplo, provavelmente obteria a mesma impressão digital). Impressões digitais como essa normalmente são usadas apenas para rastreamento do usuário, em vez de impor controles, mas estou ciente de lugares que usam impressões digitais para implementar proibições quando existe a preocupação de que um bloqueio de IP seria muito amplo e poderia ser eficaz contra um bot ingênuo.

    
por 19.04.2016 / 01:46
0

Geralmente, o endereço IP não é informação suficiente para uma proibição correta. Portanto, as redes avançadas funcionam no topo da pilha de rede.

Um ataque de negação de serviço (DoS) (que você está preocupado em criar) geralmente é tratado pela taxa que limita a configuração inicial da conexão TCP. Isso significa que usuários legítimos que estão dispostos a esperar passarão, enquanto aqueles que estão apenas tentando consumir recursos do servidor são reduzidos ao ponto de se tornarem inofensivos. Foi aí que o DoS evoluiu para um ataque Distributed DoS (DDoS).

Uma vez que você tenha uma conexão com o servidor, você pode fazer quantos pedidos quiser, a administração do servidor web pode configurar quantos pedidos devem ser atendidos.

O servidor web provavelmente pode lidar com mais capacidade do que o seu gateway de rede local, provavelmente é o fator limitante no seu caso de uso. Eu apostaria que seus administradores de rede da universidade viriam bater à sua porta antes da Wikipedia.

É importante ser um bom cidadão da Internet, então eu adicionaria um código limitador de taxa a um bot.

Também deve ser salientado que a Wikipedia oferece despejos de dados para que o arrasto do site não seja realmente necessário.

    
por 19.04.2016 / 10:05