Tamanho estimado do índice do Windows Search

Question

Tamanho estimado do índice do Windows Search

#1 resposta do (1 votos)
#2 resposta do (0 votos)
#3 resposta do (0 votos)

4

Eu tenho que indexar uma quantidade bastante grande de dados com o Windows Search, então eu queria ter uma estimativa do tamanho do índice. Eu indexei um subconjunto de dados (cerca de 60 GB; 13 e 6 páginas de dados de texto cada um com cerca de 4-5 KB).

O índice cresceu para cerca de 78 GB, por isso agora ocupa mais espaço do que os dados em si. Esses resultados contradizem o que eu li em aqui :

The average size of an index is about 10% of the size of all the content that is being indexed.

Este é o tamanho esperado do índice? O que pode ser feito para reduzi-lo?

windows windows-search

por Vladimir Nesterovsky 16.08.2011 / 04:41

3 respostas

Tags windows windows-search

Quais regras se aplicam quando o IE9 decide como abrir pop-ups? O valor de verificação é numérico e não mais que n dígitos

score 1 · Answer 1

O tamanho médio do índice não é indicativo do que o seu seria. Isto é provavelmente porque além de todos os seus arquivos serem indexados (e isso já seria grande como uma porcentagem de tamanho, pois seus arquivos são pequenos) o conteúdo dos arquivos de texto também é indexado, aumentando ainda mais o tamanho do índice.

score 0 · Answer 2

A regra de 10% baseia-se em várias suposições:

O corpus contém arquivos com prosa de uma linguagem humana
Os arquivos, em média, são razoavelmente grandes em comparação com os metadados
O corpus não contém arquivos de código (.cpp, .cs, ect)

O número 3 é porque o índice é compactado no disco, assumindo que as palavras serão repetidas com freqüência. Isso é verdadeiro para a maioria dos textos (confira quantas vezes 'o' aparece no seu índice), mas para o código existem tantas 'palavras' exclusivas de nomes de variáveis que isso quebra essa suposição.

No seu caso, eu suspeito que o problema seja o número 2, um grande número de arquivos pequenos. Há uma quantidade fixa de sobrecarga de metadados que vem com cada arquivo que precisa ser armazenado no índice. Por exemplo, o índice tem que armazenar o caminho completo, data de modificação, data de criação, ect para cada arquivo sobre o conteúdo. Ele soma cerca de 3 K por arquivo e, se o tamanho médio do arquivo for de 4 a 5 K, provavelmente é o problema.

Se a pesquisa for importante e você não puder combinar o arquivo, recomendamos desativar a indexação do conteúdo desses tipos de arquivo que você tem muito. Ele deve reduzir o tamanho e ainda ter os metadados do arquivo pesquisável.

score 0 · Answer 3

Desativei meu serviço de pesquisa para o Windows. Eu uso papplicações de pesquisa alternativas. "Tudo", com apenas 900 KB de tamanho para pesquisa de arquivos extra rápida e "FileSeek Pro" para pesquisa sobre conteúdo de arquivos.