Problemas com o googlebot

Question

Problemas com o googlebot

#1 resposta do (2 votos)
#2 resposta do (1 votos)
#3 resposta do (0 votos)
#4 resposta do (0 votos)

2

O Googlebot está constantemente tentando indexar URLs que não existem em nosso servidor, por isso ele recebe um erro 404 o tempo todo. Não temos nenhuma referência a esse site (acho que é um blog da Nigéria), então não sei por que o Google está tentando acessar essas páginas.

O mais estranho é que não consigo encontrar esse site na Internet, é como se ele não existisse em nenhum lugar.

Este é um exemplo de uma entrada nos meus registros:

66.249.72.201 - - [17/Sep/2011:10:08:10 +0200] "GET /main.php/v/Agadez+2006/Tagama/IMG_1214.JPG.html?g2_imageViewsIndex=3&g2_fromNavId=x50ca95f2 HTTP/1.1" 404 245 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Alguma ideia sobre o que está acontecendo?

google logging

por Curri 17.09.2011 / 10:00

4 respostas

Tags google logging

Após a migração (Server 2003 para 2008), o File Services é SLOW; alguma ideia porque? Você pode desativar a inicialização automática do mdadm?

score 2 · Answer 1

O GoogleBot é conhecido por experimentar URLs que já existiam no passado. Por exemplo, recentemente fiz uma revisão completa do meu site. Os URLs antigos que foram indexados no passado ainda estão sendo atingidos (404) pelo Googlebot meses depois. Eu sei de fato que meu site não usa internamente essas URL's de nenhuma maneira. Alguns estão ligados por sites externos; alguns nem sequer estão ligados externamente.

Você pode querer usar as Ferramentas do Google para webmasters, se ainda não o fez. Você pode usar as ferramentas para ver o que foi indexado e o que deu um 404. Você também pode ver quais páginas estão vinculadas a partir de quais locais externos.

score 1 · Answer 2

A alegação da fama do Google é rastrear a Internet e discernir conteúdo relevante que agregue valor aos usuários. Ao fazer isso, o Google depende muito de links de entrada de outros sites como uma espécie de "voto de confiança" sobre o seu site. Desde que existam links em outro site flutuando sobre a Rede, o Google seguirá os links em busca de conteúdo para indexar.

Suspeito que o proprietário anterior do seu nome de domínio (antes de seu registro) tenha links de entrada em outro lugar para o conteúdo criado em algum momento. Agora que você assumiu a custódia do nome de domínio e o conteúdo não existe mais, o Google recebe um erro 404.

Em um mundo perfeito, o Google se lembraria de receber o erro 404 e nunca rastrear esse link novamente. Infelizmente, o GoogleBot é complexo e está sempre mudando, então é difícil adivinhar o que pode acontecer.

Eu tive uma experiência semelhante com um nome de domínio recém-registrado - você pode ignorar com segurança esse comportamento. Não terá nenhum impacto sustentável em seus rankings.

score 0 · Answer 3

O que acontece? O Google está acessando seu site. Nada para se preocupar.

Se você se preocupa com algo, leia o URL fornecido: link

Se você não quiser que o Google acesse seu site, poderá bloquear o intervalo de IPs. Nesse caso, a página no será indexada.

score 0 · Answer 4

Não é possível dizer a partir de um único URL se isso é prático ou não, mas a primeira coisa que estou vendo é adicionar uma parte do URL ao arquivo robots.txt.