Solução simples de código aberto para armazenamento de documentos PDF e recuperação baseada em pesquisa [closed]

2
Estou envolvido com uma pequena empresa de gerenciamento residencial que tem muitos documentos que eu quero digitalizar em PDF e colocar na web para todos os residentes acessarem. Muitas pessoas não são técnicas, então algo simples de usar é essencial.

Eu tenho as habilidades para configurar uma solução baseada em servidor baseada em LAMP, embora não deva custar quantias significativas de dinheiro para comprar ou manter, portanto de código aberto, preferencialmente com um pequeno espaço de memória. Tudo o que eu observei até agora (como Alfresco, KnowledgeTree e LogicalDOC) parece ser um grande exagero, e complexo tanto em termos de configuração quanto para usuários.

Eu estava pensando nas linhas de algo como AjaxExplorer, que parece fazer o arquivo navegando parte do que eu quero fazer de forma admirável. Em termos de pesquisa de texto completo, existe um produto que funcione com o AjaxExplorer, ou alguma outra coisa que possa trabalhar com ele, que as pessoas recomendariam como uma ferramenta relativamente fácil de configurar para indexar e, subsequentemente, pesquisar um repositório de documentos?

Seria aceitável ter áreas separadas do front-end para navegar na árvore de arquivos e uma pesquisa simples por nome de arquivo / metadados e pesquisa de texto completo, se, como suspeito, não houver uma solução integrada adequada.

    
por Stev_k 04.01.2012 / 18:00

3 respostas

1

Pessoalmente, eu usaria apenas uma distribuição regular do Apache (sem PHP) e depois adicionaria um filtro para servir apenas os documentos .pdf:

Existem muitas maneiras diferentes de fazer isso. Por exemplo, esta diretiva que você coloca dentro do seu nó "Diretório" no seu arquivo httpd.conf:

<Directory "C:/Apache2.2/htdocs">
    Options Indexes Includes MultiViews
    IndexOptions +ScanHTMLTitles -IconsAreLinks FancyIndexing FoldersFirst NameWidth=*
    AddIcon (IMG,/webicons/image3.gif) .gif .png .jpeg .jpg .xbm .PNG .JPG .GIF .tiff .bmp
    AddIcon (IMG,/webicons/compressed.gif) .7z .zip .cab .tar .jar .mdb .ldf .mdf .CAB
    AddIcon (IMG,/webicons/binary.gif) .exe .msi .rdp .pcf .dia .class .ks .keystore .scc
    AddIcon (IMG,/webicons/a.gif) .txt .log .properties .doc .xls .xml .ts .msg .dat .sql .csv .pem .sh .py .tlp .java .der .csr .key .crt .bat .cmd .inf
    AddIcon (IMG,/webicons/link.gif) .lnk .htm .url .URL
    AddIcon (IMG,/webicons/pdf.gif) .pdf
    AddIcon /webicons/folder.png ^^DIRECTORY^^
    #ForceType application/octet-stream
    ....
    ....

Em seguida, digite: link

Se você realmente precisa ter um recurso de pesquisa, você pode instalar o PHP e usar pesquisa de arquivo simples do PHP .

    
por 04.01.2012 / 18:27
1

Eu usei o MNOGOsearch para indexar uma pilha de arquivos PDF. Ele faz pesquisas de texto completo de PDFs e muitos outros tipos de documentos. Você também pode achar o frontend da pesquisa bastante familiar.

As versões * nix são licenciadas por GNU.

link

    
por 04.01.2012 / 22:28
1

ownCloud é uma solução de código aberto para armazenar arquivos que podem ser executados em LAMP. Ele tem uma interface muito limpa e, embora tenha outros recursos (calendário, contatos, músicas, fotos) , todos eles podem ser facilmente desativados . A partir da versão 3 , ele possui um visualizador de PDF integrado. A partir da versão 5 , a pesquisa em PDF de texto completo é fornecida pela Lucene.

    
por 31.01.2012 / 17:56