Perguntas sobre 'web-crawler'

3
respostas

Como eu uso o robots.txt para proibir o rastreamento apenas dos meus subdomínios?

Se eu quiser que meu site principal esteja nos mecanismos de pesquisa, mas nenhum dos subdomínios esteja, devo simplesmente colocar o arquivo "disallow all" robots.txt nos diretórios dos subdomínios? Se eu fizer, meu domínio principal ainda pode...
31.08.2012 / 21:23
4
respostas

Como classifico o limite do google crawl do meu bloco de IP?

Eu tenho vários sites em uma rede /24 que são rastreados pelo google regularmente. Normalmente isso está bem. No entanto, quando o Google começa a rastrear todos os sites ao mesmo tempo, o pequeno conjunto de servidores que apóia esse bloquei...
03.04.2010 / 00:32
3
respostas

Com que frequência os web spiders do Google rastreiam a web?

Apenas algumas horas depois de fazer algumas alterações no HTML do meu site, descobri que o Google atualizou seu resultado de pesquisa em meu site. A Internet é tão grande, como o rastreador do Google fez isso? Não usa muita largura de banda?  ...
30.12.2009 / 05:48
2
respostas

Pedido estranho em access.log, como bloquear?

Estou usando o nginx em meu próprio servidor, e notei há alguns dias uma solicitação estranha no meu access.log: 77.50.217.37 - - [19/Aug/2011:17:50:50 +0200] "GET http://images.google.com/ HTTP/1.1" 200 151 "-" "Mozilla/4.0 (compatible; MSIE...
19.08.2011 / 18:27
4
respostas

Como posso executar o nutch no kernel do Linux?

Eu quero executar o nutch no kernel do linux, eu fiz o login como um usuário root, Eu configurei toda a configuração do arquivo de variável de ambiente e nutch. Eu criei um arquivo url.txt que contém o URL para rastrear, Quando estou tentando ex...
28.12.2009 / 15:18
1
resposta

Rastreador / aranha do site que gera resultados no mysql

Foi sugerido que usássemos o mysql para a pesquisa do nosso site, pois ele estaria rodando no mesmo servidor que hospeda nosso servidor web (nginx) e nosso db (mysql). Como nem todas as nossas páginas são criadas a partir do banco de dados, s...
22.02.2010 / 16:14
3
respostas

O google crawler faz o download de arquivos binários?

Meu Google-fu está falhando comigo agora. Estou tentando descobrir se o rastreador da Web do Google faz o download de arquivos binários que não são imagens quando ele exibe sites. Eu sei que faz o download (e indexa) imagens e PDFs, mas o que...
27.04.2012 / 23:00
2
respostas

É uma boa ideia banir o amazonaws.com [fechado]

O site é rastreado por um bot anônimo hospedado no amazon ec2. Este robô não respeita robots.txt e cria alta carga no servidor web, então eu adicionei checar se o IP reverso para solicitação termina com "amazonaws.com" e o servidor retorna 403 p...
15.09.2011 / 21:18
1
resposta

Baidu Spider causando 3Gb de tráfego por dia - mas faço negócios na China

Estou em uma situação difícil, a aranha do Baidu está atingindo o meu site, causando cerca de 3Gb por dia de largura de banda. Ao mesmo tempo, faço negócios na China, portanto, não quero apenas bloqueá-lo. Alguém mais esteve em uma situação s...
24.11.2015 / 22:03
1
resposta

Por que o googlebot está solicitando o robots.txt do meu servidor SSH?

Eu corro ossec no meu servidor e periodicamente recebo um aviso como este: Received From: myserver->/var/log/auth.log Rule: 5701 fired (level 8) -> "Possible attack on the ssh server (or version gathering)." Portion of the log(s): Nov...
19.11.2013 / 20:40