Perguntas sobre web-crawler. Página # 9

2

respostas

Como criar um robots.txt global que seja anexado ao robots.txt de cada domínio no Apache?

Eu sei que o cria ONE arquivo robots.txt para todos os domínios em um servidor Apache * , mas eu quero anexar ao robots.txt de cada domínio (se pré-existente). Quero algumas regras gerais para todos os domínios, mas preciso permitir que domín...

02.11.2012 / 22:05

3

respostas

Devo proibir aranhas?

Um script de modelo de trilhos que eu tenho visto adiciona automaticamente User-Agent: e Dissalow: no robots.txt, proibindo assim todos os spiders do site Quais são os benefícios da proibição de aranhas e por que você quer?

04.10.2010 / 17:47

3

respostas

Como bloquear esse padrão de URL no VCL do Varnish?

Meu site está sendo seriamente atingido por spambots e scrappers. Eu usei o Cloudflare, mas o problema ainda permanece lá. O problema é spambots acessar URLs inexistentes causando muita carga para o meu backend drupal que vai todo o caminho e bo...

27.10.2012 / 14:06

3

respostas

Vale a pena bloquear rastreadores maliciosos via iptables?

Eu verifico periodicamente os logs do meu servidor e noto que muitos rastreadores pesquisam a localização do phpmyadmin, zencart, roundcube, seções do administrador e outros dados confidenciais. Em seguida, há também rastreadores sob o nome "Mor...

11.05.2010 / 17:41

1

resposta

Existe um proxy da web de encaminhamento que verifica e obedece ao robots.txt em domínios remotos?

Existe um servidor proxy de encaminhamento que pesquisará e obedecerá a robots.txt arquivos em domínios remotos da Internet e os aplicará em nome dos solicitantes que passarem pelo proxy? por exemplo. Imagine um website em www.example.com...

03.01.2012 / 17:28

2

respostas

Proteção contra sucateamento com nginx

Esta manhã tivemos um rastreador enlouquecendo em nosso servidor, atingindo quase 100 vezes por segundo. Gostaríamos de adicionar uma proteção para isso. Acho que preciso usar o HttpLimitReqModule , mas não quero bloquear o google / bing...

22.09.2013 / 18:08

1

resposta

O Googlebot procura repetidamente por arquivos que não estão no meu servidor

Estou hospedando um site para uma organização de voluntários. Mudei o site para o WordPress, mas nem sempre foi assim. Eu suspeito que em um ponto ele foi hackeado mal. Meu arquivo de log de erros do Apache cresceu para 122 kB nas últimas 18...

13.11.2012 / 02:51

1

resposta

Suspeita de atividade maliciosa por um dos usuários do meu site; alguma maneira de saber com certeza?

No decorrer de cerca de duas horas, um usuário conectado ao meu site acessou cerca de 1.600 páginas de maneira suspeita, semelhante a um bot. Estou preocupado porque os usuários devem comprar o acesso ao site para obter acesso total ao nosso con...

07.04.2016 / 14:46

3

respostas

Bloqueio de 'bons' bots no nginx com múltiplas condições para certas URLs fora dos limites onde os humanos podem ir

Após 2 dias pesquisando / tentando / falhando resolvi postar isso aqui, não encontrei nenhum exemplo de alguém fazendo o mesmo nem o que tentei parece estar funcionando OK. Eu estou tentando enviar um 403 para bots não respeitando o arquivo robo...

25.04.2012 / 12:15

0

respostas

HTTrack armazena páginas sem extensão com um .html acrescentado

Gostaria de espelhar um site antigo meu para arquivos locais. Eu usei o httrack para isso no passado, mas estou tendo um problema desta vez que eu realmente pensei ter descoberto antes, mas não consigo agora. Meu site tem muitas páginas sem e...

18.12.2017 / 14:38

Perguntas sobre 'web-crawler'