O Google-bot tropeça em um robots.txt perfeitamente normal e, em seguida, em um robots.txt inexistente [duplicado]

1

Eu tenho dois nomes de domínio apontando para o mesmo servidor virtual. Um deles, o link , é um site de brochura de trabalho que fiz para um amigo. Eu usei o outro, link , para testar o site antes de torná-lo público - em retrospecto, provavelmente uma má idéia.

Por muito tempo, o Google-bot ficou confuso de duas maneiras sobre uma busca por "ilari kaila", mas enquanto eu escrevia isso, o segundo problema parece ter desaparecido ( adicionado na edição: não, não tem).

Confusão a primeira

Os resultados de pesquisa do Google para "ilari kaila" incluem ilarikaila.com, mas apenas na terceira página dos resultados e, em vez de um snippet do site, o resultado inclui o texto "Uma descrição para esse resultado não é disponível devido ao robots.txt deste site - saiba mais. ".

O conteúdo do arquivo robots.txt era simplesmente

User-agent: *
Allow: /

que certamente não deve impedir que qualquer bot liste o conteúdo do site. De fato, quando os termos "ilari kaila" foram inseridos em bing.com , o site surgiu como o primeiro resultado de pesquisa (e stlil), e um snippet correto foi e é mostrado.

Alguns dias atrás, removi robots.txt totalmente (ou melhor, renomei como not_robots.txt ), mas o Google ainda está exibindo o mesmo resultado, referindo-se ao robots.txt. (Esta é provavelmente a razão pela qual o site aparece apenas na terceira página dos resultados da pesquisa.)

Confusão a segunda

Originalmente, pedidos para teemuleisti.com mostravam as mesmas páginas de ilarikaila.com, porque eu não tinha escrito um bloco server separado para o primeiro no meu arquivo nginx.conf . Eu fiz isso há algumas semanas e escrevi uma página HTML muito simples para o site anterior.

No entanto, os resultados de pesquisa do Google para "ilari kaila" mostraram links para o site teemuleisti.com mesmo duas semanas depois de eu ter feito o precedente, e até uma hora atrás. No entanto, esse problema parece ter sido resolvido ( adicionado ao editar: não, não foi) enquanto eu escrevia essa pergunta, talvez porque eu adicionei o seguinte redirecionamento ao arquivo nginx.conf do servidor :

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

para redirecionar os resultados da pesquisa, como link (que mostrou um trecho de conteúdo que está em link ) para a única página do teemuleisti.com, que agora informa os visitantes sobre o problema com a indexação do Google e tem um link para o site correto.

Isso parece ter definido o bot do Google nesse problema - embora eu não consiga ver a diferença, já que não há subpáginas sob o teemuleisti.com há semanas - mas com a confusão sobre robots.txt ?

Adicionado na edição: Se eu procurar no Google por "ilari kaila composer", a segunda página dos resultados da pesquisa ainda aponta para teemuleisti.com, então este problema ainda não está resolvido.

    
por Teemu Leisti 15.05.2014 / 10:24

1 resposta

0

Não existem coisas como Allow no robots.txt, portanto, robots.txt é inválido. Isso deixa os bots confusos, pois espera apenas as descrições de Agent e Disallow . Você deve remover o robots.txt ou esvaziá-lo se quiser que todo o contexto seja indexado.

Mais informações: link

    
por 15.05.2014 / 10:48