Verificando o conteúdo de texto dos PDFs

0

Meu site tem um repositório de arquivos, que inclui pesquisa de texto. Ele pesquisa não apenas os títulos dos arquivos, mas também as propriedades e o conteúdo dos arquivos.

O problema é que alguns dos arquivos não foram salvos corretamente e retornam resultados de pesquisa realmente estranhos.

Eu tenho um projeto para passar e corrigir as propriedades para que elas comecem a ser exibidas corretamente na pesquisa, mas seria bom verificar o que o sistema de pesquisa provavelmente verá antes de fazer o upload novamente e informar ao site -scan os arquivos.

Para esse fim, gostaria de saber se alguém fez uma visualização somente em texto de PDFs, da maneira como meu mecanismo de pesquisa pode vê-lo? Para que eu possa verificar o conteúdo antes de me preocupar em reenviar o arquivo?

Ou há algum outro método para verificar isso, talvez?

    
por Margaret 23.05.2012 / 10:36

1 resposta

0

A ferramenta pdftotext pode extrair o texto sem formatação de um PDF.

    
por 01.06.2012 / 09:16

Tags