O google crawler faz o download de arquivos binários?

3

Meu Google-fu está falhando comigo agora.

Estou tentando descobrir se o rastreador da Web do Google faz o download de arquivos binários que não são imagens quando ele exibe sites. Eu sei que faz o download (e indexa) imagens e PDFs, mas o que dizer de .zip, .dmg, etc?

Meu cliente oferece muitos pacotes de software para download em seu site, e eles estão tentando descobrir se os mecanismos de pesquisa estão criando grande parte da largura de banda que envolve esses arquivos.

    
por jessica 27.04.2012 / 23:00

3 respostas

6

A resposta para sua primeira pergunta parece ser "talvez":

What file types can Google index?

Google can index the content of most types of pages and files. See the most common file types.

Mas o link para tipos de arquivos comuns é todo texto.

Mesmo que você pesquisar por arquivos binários como o Windows Installer (.msi) , você pode obter um link para uma página contendo o arquivo ou um link direto para o arquivo, mas o Google quase certamente decide como indexá-lo com base no que está ao redor do link na página, em vez de baixar e decifrar os arquivos binários conteúdo.

Quanto à sua pergunta principal , recomendado pelo Google método maneira de verificar se o bot atingiu o seu site ou não é usar uma pesquisa de DNS reverso:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

Lembre-se de que a missão do Google "é organizar as informações do mundo e torná-las universalmente acessíveis e úteis." Isso significa que eles estão constantemente inovando, tentando indexar dados não textuais de forma a torná-lo pesquisável. Para expandir a ideia do ceejayoz de que só porque não o fizeram ontem não significa que não o farão amanhã: o Google fará tudo o que puder para o conseguir amanhã!

    
por 27.04.2012 / 23:27
2

Em vez de adivinhar, por que não verificar os access_logs para ver o que é o agente do usuário ou o host solicitante? Dessa forma, você pode até mesmo informar a quantidade de largura de banda que o Google (ou outros rastreadores) está usando, adicionando o tráfego de dados por solicitação.

    
por 27.04.2012 / 23:20
0

Recentemente, notei um pico incomum no tráfego do meu servidor web. Observar as estatísticas da Web mostrou que o pequeno conjunto de arquivos binários grandes no meu site havia sido baixado em rápida sucessão por um grupo de endereços IP aparentemente relacionados. Eu usei urlquery.net para descobrir quem é o dono desses IPs e achei que todos eram do Google.

Eu vim aqui procurando respostas, mas ao ler o que outras pessoas disseram, percebi que o Google pode estar digitalizando binários em busca de malware ou, pelo menos, enviando-os para serviços de detecção de malware para verificação. Sabemos que o Google detecta e sinaliza malware em sites, por isso é razoável supor que isso envolve o download dos arquivos em questão.

A página "Se o seu site está infectado" do Google diz o seguinte: ' Use a ferramenta Buscar como o Google nas Ferramentas do Google para webmasters para detectar malware '.

Note também que os arquivos em questão não aparecem nos resultados de pesquisa do Google, presumivelmente porque eu uso o robots.txt para impedir a indexação desses arquivos. Supondo que estou certo, quando o Google encontrar um arquivo binário vinculado a uma página da Web pública, ele verificará o arquivo em busca de malware, independentemente do robots.txt, mas só indexará o arquivo se for permitido pelo robots.txt. Eu acho que isso é exatamente o que eles deveriam estar fazendo, desde que a varredura não seja frequente.

Atualização: o Google parece estar fazendo isso a cada dez dias ou mais. Isso afetará meus limites de largura de banda.

    
por 06.11.2014 / 12:46