Como evitar ser raspado?

8

Temos um banco de dados pesquisável (DB), limitamos os resultados a 15 por página e apenas 100 resultados, mas ainda assim tentamos que as pessoas tentem raspar o site.

Estamos banindo sites que acertam rápido o suficiente. Eu queria saber se há mais alguma coisa que possamos fazer. Flash renderiza os resultados talvez?

    
por Randin 12.05.2009 / 02:10

7 respostas

6

Você pode tornar um pouco mais difícil recuperando os registros via AJAX e usando um ID de autenticação (como uma chave de API) para as chamadas AJAX.

Claro que você pode contornar isso lendo o ID e, em seguida, fazendo o pedido AJAX usando isso.

A renderização com Flash é uma alternativa à medida que você aponta (embora ainda não seja 100% inviolável), assim como a renderização em PDF.

    
por 12.05.2009 / 02:15
13

Como há obviamente uma demanda por seu banco de dados, você já pensou em revertê-lo e fornecer o que os raspadores querem? Formar uma conexão comercial com os raspadores e incentivar o uso apropriado com uma API?

    
por 12.05.2009 / 04:28
7
por 12.05.2009 / 02:36
4

Não existe uma solução tecnológica para evitar que um indivíduo motivado retire seu conteúdo publicamente acessível.

Você pode, no entanto, legalmente proteger sua propriedade intelectual:

por 12.05.2009 / 04:50
2

Que tal configurar autenticação (e talvez captcha), rastrear o uso e limitar o acesso a um determinado número de registros ou pesquisas é um determinado período de tempo?

    
por 12.05.2009 / 05:27
1

Você provavelmente descobrirá que os raspadores melhorarão a sua aparência quando você aplicar diferentes técnicas. Talvez haja uma maneira de analisar o comportamento dos usuários que raspam e apresentam um captcha ou outra interrupção? Talvez você possa limitar os resultados a um número menor por um período de tempo para forçar os raspadores a aguardarem 10 dias. Se eles não fizerem login entre eles, presumirão que são scapers?

Não importa o que você faça, certifique-se de misturar suas técnicas para dar-lhes um pouco mais de longevidade.

    
por 12.05.2009 / 02:38
1

Você precisa considerar que os raspadores podem não estar usando suas páginas da web e formulários, eles podem apenas estar chamando seu site em um nível http.

Acho que a melhor solução seria lançar um catchpa depois que um endereço IP solicitar mais do que um certo limite de solicitação.

Você precisa ter muito cuidado para garantir que não afetará a escalabilidade de sua aplicação para usuários reais.

Limitar a quantidade de dados por página que você descreve na pergunta só aumentará o número de solicitações que os clientes farão no seu servidor.

    
por 12.05.2009 / 08:07