Pesquisa de texto completo rápida e linear para a estrutura de diretórios Unix

1

Estou tentando criar uma GUI para pesquisar um grande número de arquivos de configuração enormes (aproximadamente 60000 arquivos, cada um com um tamanho entre 20 KByte e 50 MByte). Esses arquivos também são atualizados com freqüência (~ 3 vezes / dia).

Até agora eu encontrei SOLR e Esfinge , mas não encontrou nenhuma maneira de fazer com que eles retornassem a lista de linhas correspondentes, incluindo um número de linha para cada documento correspondente.

O que fazemos atualmente é converter cada arquivo de texto em XML:

<xml>
   <line number="1">foobar</line>
   <line number="2">barfoo</line>
   ...
</xml>

e armazena o resultado em um eXist-db. No entanto, o armazenamento de documentos é muito lento, por isso precisamos de uma alternativa.

Alguma ideia melhor?

    
por knipknap 11.11.2011 / 09:48

1 resposta

0

Opinião: Se você tiver grandes volumes de dados de texto volátil e precisar de acesso rápido, convertê-los em XML dificultará muito a solução dos seus problemas.

Any better ideas?

Deixe os arquivos como texto e use Lucene ?

(Eu estou supondo que grep não o corte)

    
por 11.11.2011 / 11:38

Tags