Considerações éticas / legais ao redirecionar

2

Um webcrawler comprou o nosso site duas vezes. Ele ignora nosso robots.txt e não recebemos nenhuma resposta de seus serviços ao cliente ou suporte usando o e-mail e o Twitter.

Eu tive que criar um redirecionamento de url com base em sua string de agente de usuário, redirecionei todas as suas solicitações de volta para seu próprio site público. Essa é a coisa correta a ser feita?

Editar Como eu devolvo um 40? código de erro baseado na string de agente do usuário usando tomcat / tuckey? (Nosso site está hospedado em um servidor Windows, se isso é importante.) Não consigo usar endereços IP, pois o bot usa muitos (aparentemente é baseado em grade).

Isso se deve em parte ao fato de nosso site ser um sistema legado antigo e problemático, mas o rastreador do Google e o rastreador do Bing não nos atropelam, e nosso tráfego normal de negócios é bom. Um investimento / desenvolvimento significativo para lidar com um bot não é sensato.

    
por NimChimpsky 15.06.2012 / 10:35

1 resposta

3

A webcrawler has bought our site down twice

Se um webcrawler pode derrubar seu site, eles demonstraram que seu site é muito vulnerável ao DOS. Apesar de sim, uma solução rápida é bloquear o acesso do webcrawler, ele realmente não oferece muita proteção contra outros rastreadores da Web / DOS / grandes volumes de tráfego legítimo.

Concordo com Bobby - quando você sabe que a solicitação é de um cliente mal comportado, a resposta correta é um código de erro 4xx - mas você pode colocar qualquer mensagem de status na resposta - e deve repeti-la no corpo. Eu não acho que precisa de um novo código de status - 409 parece resolver a situação.

Realmente você deve estar olhando como lidar com esse tráfego de forma mais elegante - a garantia de largura de banda mínima é mais eficaz do que a captura de largura de banda, mas é mais rara do que a última. Limitar o número de conexões e a taxa de conexão por endereço IP também é uma boa abordagem (mas cuidado com os problemas do PoP IPv6 se estiver usando o IPv4).

Se você quiser uma solução adaptativa em execução no espaço do usuário (supondo que isso esteja no Linux / BSD), dê uma olhada no fail2ban.

Restringir a largura de banda / condenações ainda são remediação - uma solução melhor é melhorar o desempenho / capacidade do seu sistema.

    
por 15.06.2012 / 11:18