Otimização de pesquisa do Google Mini para PDFs

1

Eu tenho isso funcionando, por si só, mas talvez eu tenha escolhido a ferramenta errada para o trabalho.

Basicamente, temos cópias eletrônicas de vários livros relacionados ao nosso setor.

O que eu queria fazer era criar um índice pesquisável desses livros.

Infelizmente, muitos dos livros são maiores do que o limite de indexação de 30MB, para que não sejam indexados. (Eu acho que há uma configuração para mudar isso?)

Aqueles que, no entanto, eu posso procurá-los, encontrá-los e estou vinculado diretamente a eles ... Mas ao clicar no link, o PDF inteiro é baixado e ele exibe o PDF começando na primeira página em vez de página os termos de pesquisa foram encontrados em.

Alguma sugestão ou conselhos sobre como abordar este projeto? Estou completamente aberto ...

Acho que a primeira pergunta é "devo me preocupar em tentar adaptar o material / google mini para trabalhar nesse cenário?" e se sim, "qual abordagem é melhor?"

    
por Earls 16.06.2011 / 19:35

3 respostas

0

Minha solução foi dividir os PDFs em páginas individuais. Isso funciona para mim porque estou pesquisando e servindo materiais de referência, por exemplo, um dicionário.

Se o usuário desejar saber a definição de "apple", a pesquisa na apple retornará a página do PDF individual na qual a palavra e a definição de apple aparecerão. Isso é tudo que o usuário quer saber.

Isso não funcionaria tão bem se o parágrafo abrangesse várias páginas - embora, desde que você mantenha seus PDFs com menos de 2,5 MB, você pode "empacotar" qualquer número de páginas em um único PDF.

    
por 01.07.2011 / 20:47
1

Eu provavelmente ficaria longe da abordagem google mini e tentaria obter algum software de gerenciamento de conteúdo on-line. Eu pessoalmente gosto da edição da comunidade Alfresco. Pode ser um pouco alto demais para o seu aplicativo.

    
por 16.06.2011 / 20:13
0

Não tenho certeza se essa resposta ajuda você. Mas aqui vai:

O Acrobat Pro, bem como o Acrobat Reader (mesmo no Linux) oferecem alguns "parâmetros de linha de comando em aberto do PDF". Eles controlam exatamente como o documento é aberto (qual página, qual nível de zoom, etc.).

Uma das coisas suportadas é abrir um PDF com a caixa de diálogo de pesquisa aberta e as palavras de pesquisa correspondentes já clicáveis. Exemplos:

Acrobat e Acrobat Professional no Windows:

 acrobat.exe ^
   /a #search="superuser basketball supermodels" ^
   "d:\path\to\example.pdf"

Acrobat Reader no Windows:

 acrord32.exe ^
   /a #search="PDF computing searching" ^
   "d:\path\to\example.pdf"

Acrobat Reader no Linux: *

 acroread \
   /a #search="stackexchange football girls" \
   "/path/to/example.pdf"

No site da Adobe, procure por "PDF Open Parameters" para localizar o manual em PDF descrevendo todos os detalhes sobre essa funcionalidade ....

    
por 20.06.2011 / 16:57