Existe alguma diferença entre os arquivos PDF com apenas arquivos de texto e PDF com textos e imagens de páginas digitalizadas?
Sim, arquivos PDF com arquivos de texto e PDF com imagens digitalizadas são diferentes. No pdf baseado em imagem, o computador só vê imagens e o reconhecimento de textos dentro dessas imagens requer recursos extras embutidos no mecanismo PDF, como Optical Character Reconhecimento (OCR). Os PDFs com texto são mais fáceis para o computador pesquisar porque o computador pode reconhecer o texto diretamente.
Recomendação
-
Uma maneira de pesquisar o pdf digitalizado é primeiro fazer o OCR nelas para extrair o texto e, em seguida, executar a pesquisa. Dê uma olhada nesta questão para um bom OCR para o Ubuntu. Qual é a melhor e mais simples solução de OCR?
-
Para pesquisar textos em PDFs somente com texto, recomendo a ferramenta de linha de comando pdfgrep . Existem outras boas opções também. Dê uma olhada nesta questão Como faço para pesquisar um PDF arquivo da linha de comando?