Perguntas sobre 'scraping'

7
respostas

Como evitar ser raspado?

Temos um banco de dados pesquisável (DB), limitamos os resultados a 15 por página e apenas 100 resultados, mas ainda assim tentamos que as pessoas tentem raspar o site. Estamos banindo sites que acertam rápido o suficiente. Eu queria saber...
12.05.2009 / 02:10
2
respostas

A maneira mais eficiente (tempo, custo) de raspar 5 milhões de páginas web?

Eu tenho uma lista de páginas da web que eu preciso para raspar, analisar e armazenar os dados resultantes em um banco de dados. O total é de cerca de 5.000.000. Minha suposição atual da melhor maneira de abordar isso é implantar ~ 100 instân...
31.10.2011 / 11:31
0
respostas

Quão fácil / caro é adotar o Google Mini / Google Appliance para pesquisa na intranet?

Por curiosidade, alguém está usando o Google Mini ou o Google Search Appliance para fornecer pesquisa na intranet? Foi fácil de configurar? Que tipo de preços eles cobram (figura do estádio, tenho certeza que depende do cliente)?     
17.05.2009 / 03:19
2
respostas

endereço IP de spiders e web bots “oficiais”

Existe uma API oficial para o iplists.com de onde posso obter a lista de aranhas? Minha intenção é colocar na lista de permissões esses IPs para a captura de sites.     
14.03.2012 / 04:00
1
resposta

O que fazer com agentes de usuários falsificados? Raspadores fingindo ser aranhas

Eu tenho seguido algumas aranhas em nossos logs e fiz um traceroute em seu ip para descobrir que elas são, de fato, instâncias do EC2. Os agentes do usuário são listados como Google bot e msnbot, mas não são do Google ou do MS. Existe alguma coi...
21.03.2011 / 22:15
1
resposta

Como posso usar o fail2ban para bloquear scrapers?

Eu tenho um site de mídia e problemas de usuários vindo e raspando todo o conteúdo. Eu coloquei uma URL invisível na página para capturar spiders que imediatamente bloqueia o ip, mas algumas pessoas descobriram o esquema de URL e estão criando s...
13.06.2011 / 04:11
2
respostas

Proteção contra sucateamento com nginx

Esta manhã tivemos um rastreador enlouquecendo em nosso servidor, atingindo quase 100 vezes por segundo. Gostaríamos de adicionar uma proteção para isso. Acho que preciso usar o HttpLimitReqModule , mas não quero bloquear o google / bing...
22.09.2013 / 20:08
1
resposta

Um robô de raspagem pode habilitar o JavaScript?

Tenho alguns milhares de pedidos que parecem vir de um cliente com JavaScript ativado e estou pensando se esse cliente pode ser um bot.     
01.09.2011 / 16:09
1
resposta

Suspeita de atividade maliciosa por um dos usuários do meu site; alguma maneira de saber com certeza?

No decorrer de cerca de duas horas, um usuário conectado ao meu site acessou cerca de 1.600 páginas de maneira suspeita, semelhante a um bot. Estou preocupado porque os usuários devem comprar o acesso ao site para obter acesso total ao nosso con...
07.04.2016 / 16:46
1
resposta

Proteja o nginx de martelar

Eu gostaria de proteger meu servidor HTTP nginx + pessenger + rails3 contra martelamento / raspagem. Se você tentar raspar o Google, ele mostra um captcha, caso você faça muitas solicitações do mesmo IP. Qual módulo devo usar? Obrigado.     
05.04.2012 / 01:57