Devo proibir aranhas?

Question

Devo proibir aranhas?

#1 resposta do (4 votos)
#2 resposta do (2 votos)
#3 resposta do (0 votos)

1

Um script de modelo de trilhos que eu tenho visto adiciona automaticamente User-Agent: e Dissalow: no robots.txt, proibindo assim todos os spiders do site

Quais são os benefícios da proibição de aranhas e por que você quer?

html robots.txt web-crawler

por marflar 04.10.2010 / 17:47

3 respostas

2

Geralmente, você deve proibir spiders de determinadas seções de seu site ou de páginas que você não deseja que apareçam nos resultados de pesquisa ou não oferecer nada para um mecanismo de pesquisa, como formulários de comentários, diretórios de scripts, diretórios de imagens etc. ..

Às vezes, as aranhas podem atingir seu site com uma taxa alta, portanto, o bloqueio de determinados rastreadores pode ajudar o carregamento do servidor se eles estiverem atingindo páginas lentas.

Você também gostaria de bani-lo se remover páginas ou diretórios para que ele não cuspa os 404 nos registros do seu servidor.

por 04.10.2010 / 17:54

0

Lembre-se de que o robots.txt é voluntário e não é altamente confiável. Bons robôs estão em conformidade com o robots.txt, portanto, essa é uma boa maneira de controlar o conteúdo em seu mecanismo de pesquisa.

Há um equívoco de que a colocação de conteúdo no seu robots.txt aumentará sua segurança ou impedirá que os robôs rastreiem páginas da web com baixo desempenho. No entanto, alguns robôs ruins irão ignorar o robots.txt. Se o robots.txt for acidentalmente excluído por uma semana, os bots poderão verificar seu site e publicar os resultados no Google / Yahoo / Bing, e você talvez nunca consiga limpá-lo. Alguns programas de malware que procurarão especificamente por alvos de sucesso em seu arquivo robots.txt e segmentarão especificamente esses itens proibidos.

por 05.10.2010 / 03:14

Tags html robots.txt web-crawler

Qual é o propósito dos direitos de acesso a arquivos executáveis no Linux? Removendo \ file apenas na linha de comando

score 4 · Accepted Answer

Durante o desenvolvimento, talvez você não queira que os mecanismos de pesquisa indexem seu site ainda.