Durante o desenvolvimento, talvez você não queira que os mecanismos de pesquisa indexem seu site ainda.
Um script de modelo de trilhos que eu tenho visto adiciona automaticamente User-Agent:
e Dissalow:
no robots.txt, proibindo assim todos os spiders do site
Quais são os benefícios da proibição de aranhas e por que você quer?
Geralmente, você deve proibir spiders de determinadas seções de seu site ou de páginas que você não deseja que apareçam nos resultados de pesquisa ou não oferecer nada para um mecanismo de pesquisa, como formulários de comentários, diretórios de scripts, diretórios de imagens etc. ..
Às vezes, as aranhas podem atingir seu site com uma taxa alta, portanto, o bloqueio de determinados rastreadores pode ajudar o carregamento do servidor se eles estiverem atingindo páginas lentas.
Você também gostaria de bani-lo se remover páginas ou diretórios para que ele não cuspa os 404 nos registros do seu servidor.
Lembre-se de que o robots.txt é voluntário e não é altamente confiável. Bons robôs estão em conformidade com o robots.txt, portanto, essa é uma boa maneira de controlar o conteúdo em seu mecanismo de pesquisa.
Há um equívoco de que a colocação de conteúdo no seu robots.txt aumentará sua segurança ou impedirá que os robôs rastreiem páginas da web com baixo desempenho. No entanto, alguns robôs ruins irão ignorar o robots.txt. Se o robots.txt for acidentalmente excluído por uma semana, os bots poderão verificar seu site e publicar os resultados no Google / Yahoo / Bing, e você talvez nunca consiga limpá-lo. Alguns programas de malware que procurarão especificamente por alvos de sucesso em seu arquivo robots.txt e segmentarão especificamente esses itens proibidos.
Tags html robots.txt web-crawler