O que acontece se um site não tiver um arquivo robots.txt?

2

Se o arquivo robots.txt estiver faltando no diretório raiz de um site, como as coisas são tratadas como:

  1. o site não está indexado em todos
  2. o site é indexado sem restrições

Deve logicamente ser o segundo de acordo comigo. Eu pergunto com referência a esta questão .

    
por Lazer 25.06.2010 / 13:39

6 respostas

4

O objetivo de um arquivo robots.txt é manter os rastreadores fora de certas partes do seu site. Não ter um deve resultar na indexação de todo o seu conteúdo.

A implicação do primeiro comentário sobre essa questão Meta foi que o arquivo robots.txt existia, mas estava inacessível (por qualquer razão), ao invés de não estar lá. Isso pode causar alguns problemas aos rastreadores da Web, mas isso é especulação.

Eu não tenho um robots.txt no meu blog (instalação auto-hospedada do Wordpress) e isso é indexado.

    
por 25.06.2010 / 14:06
5

Robots.txt é uma convenção estritamente voluntária entre os mecanismos de pesquisa; eles estão livres para ignorá-lo ou implementá-lo da maneira que escolherem. Dito isto, exceto a aranha ocasional procurando por endereços de e-mail ou similares, eles praticamente a respeitam. Seu formato e lógica são muito, muito simples, e a regra padrão é allow (desde que você só possa dis permitir). Um site sem um robots.txt será totalmente indexado.

    
por 25.06.2010 / 15:55
1

Eu não tinha o robots.txt em dezenas de domínios que eu registrei, alguns já em 1994, e nunca tive problemas com eles serem colocados no google / yahoo, etc.

Até meu site pessoal recebe de 150 a 200 usuários por dia do Google e não possui um arquivo robots.txt.

(Ame o requisito de pausa de três minutos entre responder a perguntas. Em seguida, recebo o captcha do robô. Às vezes, não vale a pena tentar ser útil.)

    
por 25.06.2010 / 13:51
1

O robots.txt é completamente opcional. Se você tiver um, os rastreadores compatíveis com os padrões o respeitarão, se você não tiver nenhum, tudo que não for permitido nos elementos HTML-META ( Wikipedia ) é rastreável.

    
por 25.06.2010 / 14:06
1

O site será indexado sem limitações. as aranhas seguirão o que encontrarem. Eu não acho que você quer isso. algumas aranhas como baidu podem ser muito agressivas sobre isso. Ele pode até mesmo avaliar URLs em códigos javascript.

aqui estão informações detalhadas. link

ps. você também terá muitos logs 404 no seu servidor web. Também é uma desvantagem durante a leitura de registros. & Não esqueça de colocar o arquivo favicon.ico. esse é outro arquivo estúpido que todos os navegadores exigem em todas as páginas.

    
por 25.06.2010 / 14:06
1

(Não consegui encontrar uma maneira de adicionar um comentário, mas) Além disso, gostaria de acrescentar que não ter um robots.txt também é um problema, no sentido de que você não poderá fornecer um Sitemap para ele. Lembre-se de que os Sitemaps estão localizados apenas por serem especificados no arquivo Robots.txt ou por meio de envio direto aos mecanismos de pesquisa, mas é claro que o último significa que você precisa fazer isso um a um, em vez de simplesmente encontrar todos rapidamente isso.

    
por 26.06.2010 / 19:57