Indexando arquivos PDF no Ubuntu

3

Estou procurando uma solução no Ubuntu que indexe arquivos PDF (e ps?) para pesquisas posteriores.

Os critérios seriam:

  1. Compatibilidade: Freqüentemente, a extração do texto varia, dependendo de qual software foi usado para criar o PDF. Alguns PDFs também podem ser "bloqueados", o que eu acho que deve ser respeitado.
  2. Funcionalidade de pesquisa: caracteres curinga, regex, correspondência "difusa".
  3. Velocidade de pesquisa

No meu caso, quero indexar uma pasta de artigos de periódicos acadêmicos, daí a exigência de que ela funcione consistentemente, independentemente de qual software tenha criado o PDF. Eu já estou usando um gerenciador de referência, então prefiro não substituir isso.

Por exemplo: Um bom front-end para o Beagle, e um plugin que permita indexar PDFs seria perfeito.

    
por pufferfish 01.07.2009 / 15:42

3 respostas

1

O Tracker faz a mesma coisa que o Beagle e o Strigi, mas ao contrário do Beagle, ele é escrito em C puro (o Beagle é um aplicativo Mono). Alegadamente, é muito mais rápido que Beagle, embora eu não tenha feito as contas sozinho.

Não consigo encontrar um link para o Tracker, mas tenho certeza de que ele está nos repositórios padrão do Ubuntu.

    
por 03.07.2009 / 08:51
1

O Lucene faz a indexação de texto completo de PDF, HTML, Microsoft Word e OpenDocument. É apenas uma biblioteca, mas há vários aplicativos / CMS usando-os ou você pode usá-los como base para sua própria solução.

É um software livre (licença Apache).

Editar:

Se você estiver procurando por algo com um frontend, você pode considerar o Beagle ou o Strigi:

Beagle

Strigi

    
por 01.07.2009 / 16:44
0

Eu uso o Google Desktop para pesquisar no linux. Não é grátis, mas é o melhor que encontrei.

    
por 03.07.2009 / 04:18