Perguntas sobre 'web-crawler'

3
respostas

Firewall - Prevenindo o roubo de conteúdo e rastreadores desonestos

Nossos sites estão sendo rastreados por ladrões de conteúdo regularmente. Obviamente, queremos deixar passar os bons bots e legitimar a atividade do usuário, mas bloquear a atividade questionável. Nós tentamos o bloqueio de IP em nosso firewa...
03.03.2010 / 02:21
1
resposta

Há algum banco de dados de Bot / Spider / Crawler regularmente atualizado? [fechadas]

Estou procurando um banco de dados que seja atualizado regularmente com diferentes bots, spiders e crawlers. Eu quero ser capaz de identificá-los nos arquivos de log do IIS.     
08.10.2009 / 17:40
1
resposta

Considerações éticas / legais ao redirecionar

Um webcrawler comprou o nosso site duas vezes. Ele ignora nosso robots.txt e não recebemos nenhuma resposta de seus serviços ao cliente ou suporte usando o e-mail e o Twitter. Eu tive que criar um redirecionamento de url com base em sua strin...
15.06.2012 / 10:35
1
resposta

P: Estranho tráfego na web - Isso é um ataque?

Recentemente, notei algum tráfego estranho nos meus registros de acesso nginx. Não tenho certeza se isso indica um ataque, um erro ou outra coisa. Eu comecei a enviá-los para o HTTP 444, então esses registros indicarão isso. 1) Eu notei um au...
28.11.2015 / 07:42
2
respostas

Apache travando com sobrecarga de memória / cpu quando o rastreador do google visita o site

Eu tenho um site com pouco tráfego, menos de 500 acessos por dia. Tem um 6G de memória e é subutilizado, em média, 5% está em uso. Mas assim que o googlebot estabelece uma conexão com meu servidor / apache, a memória e o uso da CPU aumentam em s...
10.07.2011 / 23:44
3
respostas

Quanto espaço HDD eu precisaria para armazenar em cache a web, respeitando o robot.txts? [fechadas]

Eu quero experimentar a criação de um rastreador da web. Vou começar com a indexação de um site de tamanho médio, como o Stack Overflow ou Smashing Magazine. Se funcionar, gostaria de começar a indexar toda a web. Eu vou respeitar robot.txts. Eu...
05.06.2010 / 14:56
0
respostas

Barracuda.com e serviços de crawling / pinger que causam carga incomum em servidores da web

Recentemente, recebi um grande número de acessos em minha home page de 64.235.153.8 . Ele gira para barracuda.com Eu conheço o Barracuda como uma solução de detecção / prevenção de spam de classe empresarial. Eles também oferecem algum tipo d...
20.12.2016 / 23:57
2
respostas

Pedidos estranhos “GET / api / levels /” e “GET / play /” em logs

Eu configurei a nova instância do Amazon EC2. Em um dia ou dois começaram a receber solicitações estranhas de "GET" dos IP do tipo "google bot-like" (por exemplo, 66.249.76.84, 66.249.74.152) cerca de um em 10 segundos (alguns exemplos): 66.2...
11.04.2013 / 16:30
1
resposta

Qual seria o tamanho de um banco de dados MySQL se eu salvasse o título e o URL de todas as páginas? [fechadas]

Para fins de aprendizado, quero criar um indexador da Web simples que rastreie a Web e salve todas as páginas encontradas em um banco de dados MySQL com seus títulos e URLs, com essa tabela (o conteúdo da página não é salvo): id: integer AUT...
31.10.2010 / 01:01
2
respostas

Copie um site e preserve a estrutura de arquivos e pastas

Eu tenho um antigo web site rodando em uma versão antiga do Oracle Portal que precisamos converter em uma estrutura flat-html. Devido a danos ao servidor, não podemos acessar a interface administrativa e, mesmo se pudéssemos, não haveria nenhuma...
11.06.2010 / 10:40