Existe algum aplicativo / firewall para detectar os raspadores de conteúdo? [fechadas]

2

Estamos percebendo que uma quantidade significativa de tráfego da Web é proveniente de raspadores de conteúdo (determinados devido ao padrão de rastreamento). Eles são inúteis visitantes para nós, mas consomem muitos dos nossos recursos (largura de banda, CPU). Existe algum aplicativo / firewall para detectar os raspadores de conteúdo e bloqueá-los?

Excluindo os rastreadores do mecanismo de pesquisa, eles não são inúteis.

Nota: prefiro usar as soluções existentes. Acreditamos que este é um problema comum e que deveria haver uma solução existente.

    
por newbie 31.12.2012 / 15:22

1 resposta

0

A melhor maneira de fazer isso é bloquear o tráfego usando o netfilter / iptables, já que este é essencialmente mais eficiente que o bloqueio via apache2 / php. O problema aqui é que você precisa saber o ip / hostname dos raspadores de conteúdo.

Uma extensão possível pode ser a tentativa de detectar raspadores de conteúdo com base no comportamento deles (- métodos estatísticos! - por exemplo, solicitações por minuto) ou, por exemplo, procure por useragent ausente ou outras coisas que um navegador de usuário normal teria e, em seguida, negue o acesso a elas. É claro que você também pode adicionar o IP / Hostname via php (ou qualquer ambiente que você use) ao iptables, então ele é bloqueado. Mas normalmente isso requer permissão de root e NÃO é uma boa idéia dar permissão de root ao seu apache2.

    
por 31.12.2012 / 15:46