Indexando arquivos PDF no Ubuntu

Question

Indexando arquivos PDF no Ubuntu

#1 resposta do (1 votos)
#2 resposta do (1 votos)
#3 resposta do (0 votos)

3

Estou procurando uma solução no Ubuntu que indexe arquivos PDF (e ps?) para pesquisas posteriores.

Os critérios seriam:

Compatibilidade: Freqüentemente, a extração do texto varia, dependendo de qual software foi usado para criar o PDF. Alguns PDFs também podem ser "bloqueados", o que eu acho que deve ser respeitado.
Funcionalidade de pesquisa: caracteres curinga, regex, correspondência "difusa".
Velocidade de pesquisa

No meu caso, quero indexar uma pasta de artigos de periódicos acadêmicos, daí a exigência de que ela funcione consistentemente, independentemente de qual software tenha criado o PDF. Eu já estou usando um gerenciador de referência, então prefiro não substituir isso.

Por exemplo: Um bom front-end para o Beagle, e um plugin que permita indexar PDFs seria perfeito.

pdf indexing ubuntu

por pufferfish 01.07.2009 / 13:42

3 respostas

1

O Lucene faz a indexação de texto completo de PDF, HTML, Microsoft Word e OpenDocument. É apenas uma biblioteca, mas há vários aplicativos / CMS usando-os ou você pode usá-los como base para sua própria solução.

É um software livre (licença Apache).

Editar:

Se você estiver procurando por algo com um frontend, você pode considerar o Beagle ou o Strigi:

Beagle

Strigi

por 01.07.2009 / 14:44

0

Eu uso o Google Desktop para pesquisar no linux. Não é grátis, mas é o melhor que encontrei.

por 03.07.2009 / 02:18

Tags pdf indexing ubuntu

Como evitar que o gnome monte automaticamente uma partição? Layout do Esquema LDAP

score 1 · Accepted Answer

O Tracker faz a mesma coisa que o Beagle e o Strigi, mas ao contrário do Beagle, ele é escrito em C puro (o Beagle é um aplicativo Mono). Alegadamente, é muito mais rápido que Beagle, embora eu não tenha feito as contas sozinho.

Não consigo encontrar um link para o Tracker, mas tenho certeza de que ele está nos repositórios padrão do Ubuntu.