Não sei por que impor a conformidade com robots.txt
seria o trabalho de um proxy: o rastreador (robô) deve puxar robots.txt
e seguir as instruções contidas nesse arquivo , contanto que o proxy retorne os dados corretos de robots.txt
e o rastreador A coisa certa com esses dados e, desde que o rastreador suporte o uso de um proxy, você obterá todos os benefícios de um proxy sem trabalho necessário.
**
Dito isso, eu não sei de nenhum proxy que faça o que você parece estar pedindo (parse robots.txt de um site e só retorne coisas que seriam permitidas por esse arquivo - presumivelmente para controlar um bot de crawler que não respeita robots.txt
?). Escrever um proxy que lida com isso exigiria fazer um mapeamento / verificação do usuário-agente-para-robots.txt para cada solicitação recebida pelo proxy, o que certamente é possível (você pode fazer isso no Squid, mas seria necessário script para transformar o robots.txt em regras de configuração do squid e atualizar esses dados periodicamente), mas seria, sem dúvida, um sucesso na eficiência do proxy.
Corrigir o rastreador é a melhor solução (ele também evita que dados "obsoletos" sejam enviados ao rastreador pelo proxy. Observe que um bot de rastreamento bom verificará os tempos de atualização nos cabeçalhos HTTP e só buscará páginas se eles mudaram ...)