Quanto espaço HDD eu precisaria para armazenar em cache a web, respeitando o robot.txts? [fechadas]

2

Eu quero experimentar a criação de um rastreador da web. Vou começar com a indexação de um site de tamanho médio, como o Stack Overflow ou Smashing Magazine. Se funcionar, gostaria de começar a indexar toda a web. Eu vou respeitar robot.txts. Eu salvo todos os documentos html, pdf, word, excel, powerpoint, keynote, etc ... (não exes, dmgs etc, apenas documentos) em um banco de dados MySQL. Ao lado disso, eu terei uma segunda tabela contendo todos os restultos e descrições, e uma tabela com palavras e em qual página para encontrar essas palavras (também conhecido como um índice).

Quanto espaço HDD você acha que eu preciso para salvar todas as páginas? É tão baixo quanto 1 TB ou é aproximadamente 10 TB, 20? Talvez 30? 1000?

Obrigado

    
por rightfold 05.06.2010 / 14:56

3 respostas

3

A internet achive indexa a web como você mencionou, mas apenas preserva sites, não documentos, tanto quanto eu sei. Eles mantêm versões antigas de sites indexados, portanto, a necessidade de espaço pode ser muito maior. Em seu FAQ eles falam sobre 2 petabytes de espaço requerido para aquela tarefa ( link ) e sobre centenas de linux servidores, cada um com cerca de 1 TB de dados. Isso deve ser alguns números, o que deve dar uma primeira impressão.

    
por 05.06.2010 / 15:05
0

Em 2008, o Google estava indexando 1.000.000.000.000 de páginas, se uma página da Web é, em média, 1Ko, isso é 1000To. Uma média de 1ko por página é apenas uma estimativa muito baixa .. há PDF fazendo tamanho enorme ...

Boa sorte

    
por 05.06.2010 / 16:03
-1

Eu suspeito que um índice sozinho irá gerar um KiloByte por página, em média, quando você incluir a descrição, etc. Há muitas páginas por aí ...

    
por 05.06.2010 / 15:30