Tamanho estimado do índice do Windows Search

4

Eu tenho que indexar uma quantidade bastante grande de dados com o Windows Search, então eu queria ter uma estimativa do tamanho do índice. Eu indexei um subconjunto de dados (cerca de 60 GB; 13 e 6 páginas de dados de texto cada um com cerca de 4-5 KB).

O índice cresceu para cerca de 78 GB, por isso agora ocupa mais espaço do que os dados em si. Esses resultados contradizem o que eu li em aqui :

The average size of an index is about 10% of the size of all the content that is being indexed.

Este é o tamanho esperado do índice? O que pode ser feito para reduzi-lo?

    
por Vladimir Nesterovsky 16.08.2011 / 06:41

3 respostas

1

O tamanho médio do índice não é indicativo do que o seu seria. Isto é provavelmente porque além de todos os seus arquivos serem indexados (e isso já seria grande como uma porcentagem de tamanho, pois seus arquivos são pequenos) o conteúdo dos arquivos de texto também é indexado, aumentando ainda mais o tamanho do índice.

    
por 16.08.2011 / 06:51
0

A regra de 10% baseia-se em várias suposições:

  1. O corpus contém arquivos com prosa de uma linguagem humana
  2. Os arquivos, em média, são razoavelmente grandes em comparação com os metadados
  3. O corpus não contém arquivos de código (.cpp, .cs, ect)

O número 3 é porque o índice é compactado no disco, assumindo que as palavras serão repetidas com freqüência. Isso é verdadeiro para a maioria dos textos (confira quantas vezes 'o' aparece no seu índice), mas para o código existem tantas 'palavras' exclusivas de nomes de variáveis que isso quebra essa suposição.

No seu caso, eu suspeito que o problema seja o número 2, um grande número de arquivos pequenos. Há uma quantidade fixa de sobrecarga de metadados que vem com cada arquivo que precisa ser armazenado no índice. Por exemplo, o índice tem que armazenar o caminho completo, data de modificação, data de criação, ect para cada arquivo sobre o conteúdo. Ele soma cerca de 3 K por arquivo e, se o tamanho médio do arquivo for de 4 a 5 K, provavelmente é o problema.

Se a pesquisa for importante e você não puder combinar o arquivo, recomendamos desativar a indexação do conteúdo desses tipos de arquivo que você tem muito. Ele deve reduzir o tamanho e ainda ter os metadados do arquivo pesquisável.

    
por 14.06.2017 / 18:48
0

Desativei meu serviço de pesquisa para o Windows. Eu uso papplicações de pesquisa alternativas. "Tudo", com apenas 900 KB de tamanho para pesquisa de arquivos extra rápida e "FileSeek Pro" para pesquisa sobre conteúdo de arquivos.

    
por 17.06.2017 / 00:43