Verificando o conteúdo de texto dos PDFs

Question

Verificando o conteúdo de texto dos PDFs

#1 resposta do (0 votos)

0

Meu site tem um repositório de arquivos, que inclui pesquisa de texto. Ele pesquisa não apenas os títulos dos arquivos, mas também as propriedades e o conteúdo dos arquivos.

O problema é que alguns dos arquivos não foram salvos corretamente e retornam resultados de pesquisa realmente estranhos.

Eu tenho um projeto para passar e corrigir as propriedades para que elas comecem a ser exibidas corretamente na pesquisa, mas seria bom verificar o que o sistema de pesquisa provavelmente verá antes de fazer o upload novamente e informar ao site -scan os arquivos.

Para esse fim, gostaria de saber se alguém fez uma visualização somente em texto de PDFs, da maneira como meu mecanismo de pesquisa pode vê-lo? Para que eu possa verificar o conteúdo antes de me preocupar em reenviar o arquivo?

Ou há algum outro método para verificar isso, talvez?

pdf search

por Margaret 23.05.2012 / 08:36

1 resposta

Tags pdf search

git-number não está funcionando no Linux: sh: git-id: não encontrado Modem não detectado após desconectar no Ubuntu

score 0 · Answer 1

A ferramenta pdftotext pode extrair o texto sem formatação de um PDF.