arquivo robots.txt com regras mais restritivas para determinados agentes do usuário

Question

arquivo robots.txt com regras mais restritivas para determinados agentes do usuário

#1 resposta do (1 votos)
#2 resposta do (0 votos)

1

Sou um pouco vago quanto à sintaxe precisa do robots.txt, mas o que estou tentando alcançar é:

Informe todos os agentes de usuários para não rastrear determinadas páginas
Diga a alguns agentes do usuário para não rastrearem nada

(basicamente, algumas páginas com enormes quantidades de dados nunca devem ser rastreadas; e alguns mecanismos de pesquisa vorazes, mas inúteis, por exemplo, Cuil, nunca devem rastrear nada)

Se eu fizer algo assim:

User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx

User-agent: twiceler
Disallow: /

.. irá fluir conforme esperado, com todos os agentes de usuário correspondendo à primeira regra e pulando page1, page2 e page3; e twiceler combinando a segunda regra e pulando tudo?

robots.txt

por Carson63000 08.06.2010 / 06:04

2 respostas

Tags robots.txt

Adicionando recursos a um padrão do SQL Server 2008 com SP1 Backup / restauração do Exchange 2007

score 1 · Answer 1

Parece que você tem uma compreensão melhor do que imagina. :)

score 0 · Answer 2

Hmm, depende do rastreador e se ele é baseado na primeira correspondência. O IE twiceler pode ver a entrada curinga primeiro e não verificar mais, portanto, não veria o Disallow: /