Os spiders do Google estão constantemente rastreando a web. Eles têm várias máquinas que rastreiam seu índice massivo e adicionam novas páginas a ele o tempo todo.
Razões: é rápido:
- Eles têm toneladas de máquinas fazendo o rastreamento em velocidades ridículas
- Eles têm toneladas de largura de banda disponíveis
- Eles já possuem um índice gigante de páginas para pesquisar, economizando tempo procurando novos conteúdos. Eles podem solicitar os links indexados anteriormente e analisá-los em busca de novos links para rastrear.
- Eles vêm fazendo isso há anos e aperfeiçoaram seu algoritmo de rastreamento. Eles continuam trabalhando nisso até hoje para torná-lo ainda melhor.
- Alguns sites são indexados com mais frequência, dependendo de alguns fatores, sendo o PR (PageRank) um dos principais. Se o seu site tiver um alto PR, você o verá atualizado rapidamente. É por isso que você costuma ver as perguntas do Superusuário aparecer nos resultados da pesquisa minutos depois de serem perguntadas.
Editar:
texto alternativo http://i45.tinypic.com/2w2jup4.png
... entre muitos outros fatores.
O Google tem uma abundância de espaço e largura de banda. Não se preocupe com eles! Em janeiro de 2008, o Google estava classificando (em média) 20 PB por dia . 20 PB (petabytes) é de 20.000 terabytes ou 20 milhões de gigabytes. Agora, isso é apenas ordenação , não é all de seus dados, é uma fração disso.
An interesting question came up while running experiments at such a scale: Where do you put 1PB of sorted data? We were writing it to 48,000 hard drives (we did not use the full capacity of these disks, though), and every time we ran our sort, at least one of our disks managed to break (this is not surprising at all given the duration of the test, the number of disks involved, and the expected lifetime of hard disks). To make sure we kept our sorted petabyte safe, we asked the Google File System to write three copies of each file to three different disks.
Simplesmente incrível.