Posso proteger meu sitemap.xml para que apenas os mecanismos de pesquisa possam baixá-lo?

1

Estou planejando adicionar um monte de listas agregadas de páginas em meus sitemaps que eu não quero que seja muito fácil para pessoas de fora fazerem screnscrape. Posso proteger meu sitemap.xml para que apenas os mecanismos de pesquisa possam baixá-lo?

Instale um firewall? Estou usando o IIS6.

    
por Niels Bosma 14.12.2009 / 07:24

3 respostas

2

Na minha cabeça, você poderia reescrever regras que redirecionassem as solicitações do sitemap.xml para uma página 404, se elas não corresponderem ao agente do usuário ou aos endereços IP corretos.

Eu não tenho essa regra de reescrita, mas tenho 99% de certeza de que é possível.

    
por 14.12.2009 / 07:46
2

Como Dennis apontou, falsificar isso seria fácil. Além disso, garantir que você não excluiria acidentalmente um mecanismo de pesquisa seria difícil.

Digamos que você queira permitir que o Google, o Yahoo e o Bing direcionem seu site. Assim, você permite apenas o acesso ao sitemap para os agentes de usuários associados. Existem dois problemas agora:

E se um serviço mudar o user agent? E se você precisar incluir um serviço diferente? Agora você precisa reescrever suas regras antes que o serviço possa ver o sitemap.

Por que eu não, como um sitecraper, simplesmente declaro freneticamente que sou uma aranha do Google? A especificação de um agente do usuário é possível (e fácil) em diversos idiomas, além de muitos navegadores, como o FireFox e o Safari.

Então, a resposta curta é: "Não, mas você pode tornar isso mais difícil. Mas isso sobrecarrega você".

    
por 14.12.2009 / 18:02
2

Como você pode saber o que é e o que não é um mecanismo de pesquisa? Os agentes do usuário são substituíveis - mas deixando isso de lado, se você encontrar um agente do usuário desconhecido, sabe se é um navegador ou um mecanismo de pesquisa? Existem centenas de empresas com mecanismos de busca, então simplesmente permitir IPs do Google, Bing, e outros não é suficiente aqui.

Tentar manter os sitemaps dos mecanismos de pesquisa é uma forma de segurança através da obscuridade, e quem se importa não será bloqueado por nenhuma tentativa razoável de pará-los.

    
por 14.12.2009 / 19:38