arquivo robots.txt com regras mais restritivas para determinados agentes do usuário

1

Sou um pouco vago quanto à sintaxe precisa do robots.txt, mas o que estou tentando alcançar é:

  • Informe todos os agentes de usuários para não rastrear determinadas páginas
  • Diga a alguns agentes do usuário para não rastrearem nada

(basicamente, algumas páginas com enormes quantidades de dados nunca devem ser rastreadas; e alguns mecanismos de pesquisa vorazes, mas inúteis, por exemplo, Cuil, nunca devem rastrear nada)

Se eu fizer algo assim:

User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx

User-agent: twiceler
Disallow: /

.. irá fluir conforme esperado, com todos os agentes de usuário correspondendo à primeira regra e pulando page1, page2 e page3; e twiceler combinando a segunda regra e pulando tudo?

    
por Carson63000 08.06.2010 / 08:04

2 respostas

1

Parece que você tem uma compreensão melhor do que imagina. :)

    
por 08.06.2010 / 08:22
0

Hmm, depende do rastreador e se ele é baseado na primeira correspondência. O IE twiceler pode ver a entrada curinga primeiro e não verificar mais, portanto, não veria o Disallow: /

    
por 09.06.2010 / 17:46

Tags