Google-Bot se apaixonou pela minha página 404

2

Todo dia meu log de acesso parece com isso:

66.249.78.140 - - [21/Oct/2013:14:37:00 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [21/Oct/2013:14:37:01 +0200] "GET /vuqffxiyupdh.html HTTP/1.1" 404 1189 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

ou isto

66.249.78.140 - - [20/Oct/2013:09:25:29 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.62 - - [20/Oct/2013:09:25:30 +0200] "GET /robots.txt HTTP/1.1" 200 112 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.78.140 - - [20/Oct/2013:09:25:30 +0200] "GET /zjtrtxnsh.html HTTP/1.1" 404 1186 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

O bot chama o robots.txt duas vezes e depois tenta acessar um arquivo ( zjtrtxnsh.html , vuqffxiyupdh.html ,. ..) que não pode existir e deve retornar um erro 404. O mesmo procedimento todos os dias, apenas o inexistente html-filename muda.

O conteúdo do meu robots.txt:

User-agent: *
Disallow: /backend
Sitemap: http://mysitesname.de/sitemap.xml

O sitemap.xml é legível e válido, por isso parece não haver razão para que o bot queira forçar um erro 404.
Como devo interpretar esse comportamento? Isso aponta para um erro que cometi ou devo ignorá-lo?

UPDATE
@malware Examinei meu site com várias ferramentas on-line, nada foi encontrado.
Não tenho nenhum dos aplicativos padrão no servidor como o wordpress ou o phpmyadmin.
Eu recebo um logwatch todos os dias e não houve acesso não autorizado ou algo assim.
Eu tenho o fail2ban configurado.
Restringi o acesso ssh às chaves públicas, sem login de root permitido.
Não houve nenhum dos comandos sudo que o logwatch reportou e que eu não pude reconhecer como coisas que fiz naquele dia.
Não existe nenhum arquivo no meu diretório web que seja novo ou que não seja criado por mim ou que pareça meio estranho (ok, não posso garantir 100%, mas tudo parece bem).
fiz um clamscan completo no servidor sem nenhum resultado.
Os softwarepackages estão atualizados.

O que mais posso fazer?

    
por 32bitfloat 21.10.2013 / 22:28

1 resposta

1

Resumindo: Se minha memória me atende corretamente. É para verificar as páginas 404 em seu site.

Resposta mais longa: as pessoas criam páginas 404 personalizadas e depois esquecem de alterar o código de status da página. No final, você retornará páginas 404 personalizadas com status de cabeçalho como 200 ok quando o bot do Google tentar acessar um URL inválido. Agora o bot tem que tomar uma decisão. Para auxiliá-lo nessa decisão, ele tenta atingir seu servidor com uma URL gerada aleatoriamente que tem uma alta probabilidade de não estar em seu site e verificar qual é a resposta do site quando solicitada por uma página não encontrada.

Como eu disse, não tenho 100% de certeza sobre isso.

    
por 02.11.2015 / 11:25