É possível pesquisar entre o conteúdo dos documentos?

4

Eu queria saber se é possível pesquisar entre o conteúdo dos documentos

  • possivelmente de vários tipos: pdf, djvu, html, arquivo de texto, código de programação roteiro, ...
  • possivelmente em vários diretórios sob cada um dos documentos são misturados juntos e, possivelmente, com outros arquivos não-documentados?

grep é capaz de fazer esse tipo de coisa?

Obrigado e cumprimentos!

    
por Tim 13.04.2011 / 19:11

3 respostas

3

Eu uso o Recoll. Está nos repositórios. Ele também procura metadados em pdf. Você pode escolher quais pastas são indexadas. É muito rápido.

Instalar:

sudo apt-get install recoll
    
por bdr529 13.04.2011 / 19:50
2

Sim. Dê uma olhada em FindingFiles na documentação da comunidade para o Ubuntu. O que eu usei por um tempo foi o Tracker que é capaz de indexar a maioria dos tipos de documentos e, por manter um índice atualizado em o fundo, foi incrivelmente rápido ao pesquisar.

    
por DrSAR 13.04.2011 / 21:43
1

Você pode executar um comando nos arquivos retornados pelo comando find.

Por exemplo, com o seguinte comando listo todos os arquivos a partir do diretório atual e em cada um deles executo o comando grep para pesquisar a string 'getUri'

find . -name '*.*' -exec grep --color 'getURI' {} +

Isso funciona perfeitamente no meu Ubuntu 12.04

De qualquer forma, não creio que o comando grep seja capaz de pesquisar documentos binários como o PDF.
Também usar o comando acima em uma árvore de diretórios grande pode ser muito trabalhoso em termos de tempo computacional.

Outro aspecto a considerar é que você não pode procurar por uma string em um PDF raster, em um tipo de cenário um sistema de gerenciamento de documentos como LogicalDoc poderia ajuda.

    
por user175667 24.12.2013 / 16:49