A ferramenta pdftotext pode extrair o texto sem formatação de um PDF.
Meu site tem um repositório de arquivos, que inclui pesquisa de texto. Ele pesquisa não apenas os títulos dos arquivos, mas também as propriedades e o conteúdo dos arquivos.
O problema é que alguns dos arquivos não foram salvos corretamente e retornam resultados de pesquisa realmente estranhos.
Eu tenho um projeto para passar e corrigir as propriedades para que elas comecem a ser exibidas corretamente na pesquisa, mas seria bom verificar o que o sistema de pesquisa provavelmente verá antes de fazer o upload novamente e informar ao site -scan os arquivos.
Para esse fim, gostaria de saber se alguém fez uma visualização somente em texto de PDFs, da maneira como meu mecanismo de pesquisa pode vê-lo? Para que eu possa verificar o conteúdo antes de me preocupar em reenviar o arquivo?
Ou há algum outro método para verificar isso, talvez?
A ferramenta pdftotext pode extrair o texto sem formatação de um PDF.