Parece que você tem uma compreensão melhor do que imagina. :)
Sou um pouco vago quanto à sintaxe precisa do robots.txt, mas o que estou tentando alcançar é:
(basicamente, algumas páginas com enormes quantidades de dados nunca devem ser rastreadas; e alguns mecanismos de pesquisa vorazes, mas inúteis, por exemplo, Cuil, nunca devem rastrear nada)
Se eu fizer algo assim:
User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx
User-agent: twiceler
Disallow: /
.. irá fluir conforme esperado, com todos os agentes de usuário correspondendo à primeira regra e pulando page1, page2 e page3; e twiceler combinando a segunda regra e pulando tudo?
Parece que você tem uma compreensão melhor do que imagina. :)
Hmm, depende do rastreador e se ele é baseado na primeira correspondência. O IE twiceler pode ver a entrada curinga primeiro e não verificar mais, portanto, não veria o Disallow: /
Tags robots.txt