Com que frequência os web spiders do Google rastreiam a web?

4

Apenas algumas horas depois de fazer algumas alterações no HTML do meu site, descobri que o Google atualizou seu resultado de pesquisa em meu site. A Internet é tão grande, como o rastreador do Google fez isso? Não usa muita largura de banda?

    
por Xiè Jìléi 30.12.2009 / 05:48

3 respostas

12

Os spiders do Google estão constantemente rastreando a web. Eles têm várias máquinas que rastreiam seu índice massivo e adicionam novas páginas a ele o tempo todo.

Razões: é rápido:

  • Eles têm toneladas de máquinas fazendo o rastreamento em velocidades ridículas
  • Eles têm toneladas de largura de banda disponíveis
  • Eles já possuem um índice gigante de páginas para pesquisar, economizando tempo procurando novos conteúdos. Eles podem solicitar os links indexados anteriormente e analisá-los em busca de novos links para rastrear.
  • Eles vêm fazendo isso há anos e aperfeiçoaram seu algoritmo de rastreamento. Eles continuam trabalhando nisso até hoje para torná-lo ainda melhor.
  • Alguns sites são indexados com mais frequência, dependendo de alguns fatores, sendo o PR (PageRank) um dos principais. Se o seu site tiver um alto PR, você o verá atualizado rapidamente. É por isso que você costuma ver as perguntas do Superusuário aparecer nos resultados da pesquisa minutos depois de serem perguntadas.

Editar:

texto alternativo http://i45.tinypic.com/2w2jup4.png

... entre muitos outros fatores.

O Google tem uma abundância de espaço e largura de banda. Não se preocupe com eles! Em janeiro de 2008, o Google estava classificando (em média) 20 PB por dia . 20 PB (petabytes) é de 20.000 terabytes ou 20 milhões de gigabytes. Agora, isso é apenas ordenação , não é all de seus dados, é uma fração disso.

An interesting question came up while running experiments at such a scale: Where do you put 1PB of sorted data? We were writing it to 48,000 hard drives (we did not use the full capacity of these disks, though), and every time we ran our sort, at least one of our disks managed to break (this is not surprising at all given the duration of the test, the number of disks involved, and the expected lifetime of hard disks). To make sure we kept our sorted petabyte safe, we asked the Google File System to write three copies of each file to three different disks.

Simplesmente incrível.

    
por 30.12.2009 / 05:59
1

Eu suspeito que o google usa alguns sinais extras para decidir rastrear novamente.

Atividade da conta em ferramentas de análise ou do Google para webmasters, atividade no Twitter, atividade de pesquisa, atividade da barra de ferramentas, conclusão de URL do Google Chrome, talvez solicitações para o serviço dns.

Em seguida, eles precisam procurar quando uma página de listagem foi atualizada pela última vez e, se for o caso, a minha para páginas recém-criadas. O sitemap é a página de listagem preferida ( SuperUser tem um ) , em seguida, alimenta, em seguida, a home page que tende a listar as páginas recentes e, portanto, para ser atualizado sempre que outra página é.

    
por 30.12.2009 / 11:25
1

A frequência de rastreamento do Google é definida por vários fatores, como o PageRank, links para uma página e restrições de rastreamento, como o número de parâmetros em um URL.

e aqui está um excelente artigo sobre como isso é feito:

A anatomia de um mecanismo de pesquisa da Web hipertextual em grande escala

    
por 30.12.2009 / 12:06