Quais bots e spiders devo bloquear no robots.txt?

14

Para:

  1. Aumentar a segurança do meu site
  2. Reduzir os requisitos de largura de banda
  3. Impedir a coleta de endereços de e-mail
por DaveC 09.08.2010 / 20:06

5 respostas

16

Nenhum robô que esteja coletando e-mails ou testando seu site em busca de vulnerabilidades respeitará seu robots.txt. Na verdade, esses bots maliciosos analisam o robots.txt para melhor mapear seu site. Se houver algum ponto em que você tenha um Disallow: , isso será usado para atacar melhor seu site. Um hacker que esteja olhando manualmente para o seu site deve gastar um tempo extra examinando os arquivos / diretórios que você está tentando impedir.

    
por 09.08.2010 / 20:10
4

O robots.txt não aumentará a segurança do seu site nem impedirá a coleta de endereços de e-mail. O robots.txt é um guia para os mecanismos de pesquisa pularem as seções do seu site. Eles não serão indexados e devem ser usados em qualquer seção que você não queira exibir em mecanismos de pesquisa públicos.

No entanto, isso não impedirá que outros bots baixem o site inteiro para aumentar a segurança ou impedir a coleta de emails. Para aumentar a segurança, você precisa adicionar autenticação e permitir somente usuários autenticados além das seções seguras. Para evitar a coleta de endereços de e-mail, não coloque e-mails em texto simples (ou texto facilmente decifrável) em um site.

    
por 09.08.2010 / 20:12
1

O robots.txt não irá ajudá-lo com segurança. Qualquer bot que queira fazer algo sombrio irá ignorá-lo de qualquer maneira.

    
por 09.08.2010 / 20:10
0

O arquivo robots.txt só serve como um pedido para que bots e spiders deixem certos pedaços de conteúdo sozinhos; não pode impedir o acesso deles. Os "bons" bots irão respeitá-lo, mas os "maus" (provavelmente os que você quer bloquear) irão ignorá-lo e processá-lo de qualquer maneira.

    
por 09.08.2010 / 20:11
-1

Em vez de robots.txt, talvez você precise usar códigos CAPTCHA.

    
por 09.08.2010 / 20:29