Existe um proxy da web de encaminhamento que verifica e obedece ao robots.txt em domínios remotos?

Question

Existe um proxy da web de encaminhamento que verifica e obedece ao robots.txt em domínios remotos?

#1 resposta do (3 votos)

1

Existe um servidor proxy de encaminhamento que pesquisará e obedecerá a robots.txt arquivos em domínios remotos da Internet e os aplicará em nome dos solicitantes que passarem pelo proxy?

por exemplo. Imagine um website em www.example.com que tenha um arquivo robots.txt que restrinja determinados URLs e aplique atrasos de rastreamento a outras pessoas.

Vários clientes automáticos (por exemplo, rastreadores, rastreadores) poderiam, através do proxy, acessar o site www.example.com sem violar as diretivas robots.txt E sem precisar acessar o arquivo por si mesmos (= > clientes mais simples e menos pedidos para obter robots.txt )

(Especificamente, estou vendo a versão "GYM2008" da especificação - link - porque está em largura usar)

robots.txt http-proxy web-crawler web-proxy

por wodow 03.01.2012 / 17:28

1 resposta

Tags robots.txt http-proxy web-crawler web-proxy

Resolvendo consultas locais e da Internet - Outlook Os usuários não podem executar executáveis em compartilhamentos de rede no XP

score 3 · Accepted Answer

Não sei por que impor a conformidade com robots.txt seria o trabalho de um proxy: o rastreador (robô) deve puxar robots.txt e seguir as instruções contidas nesse arquivo , contanto que o proxy retorne os dados corretos de robots.txt e o rastreador A coisa certa com esses dados e, desde que o rastreador suporte o uso de um proxy, você obterá todos os benefícios de um proxy sem trabalho necessário.

**

Dito isso, eu não sei de nenhum proxy que faça o que você parece estar pedindo (parse robots.txt de um site e só retorne coisas que seriam permitidas por esse arquivo - presumivelmente para controlar um bot de crawler que não respeita robots.txt ?). Escrever um proxy que lida com isso exigiria fazer um mapeamento / verificação do usuário-agente-para-robots.txt para cada solicitação recebida pelo proxy, o que certamente é possível (você pode fazer isso no Squid, mas seria necessário script para transformar o robots.txt em regras de configuração do squid e atualizar esses dados periodicamente), mas seria, sem dúvida, um sucesso na eficiência do proxy.
Corrigir o rastreador é a melhor solução (ele também evita que dados "obsoletos" sejam enviados ao rastreador pelo proxy. Observe que um bot de rastreamento bom verificará os tempos de atualização nos cabeçalhos HTTP e só buscará páginas se eles mudaram ...)