Como pesquisar texto em arquivos PDF com o docfetcher?

Question

Como pesquisar texto em arquivos PDF com o docfetcher?

#1 resposta do Anwar (2 votos)

0

Estou tentando encontrar algum texto em arquivos PDF, mas os resultados não são precisos! Por exemplo, tenho 2 arquivos PDF com a palavra domiciiado . Quando faço uma busca por essa palavra (domiciliado), o docfetcher mostra apenas UM arquivo PDF com essa palavra. Minha pergunta é por que o docfetcher não mostra o outro arquivo PDF com essa palavra? Existe uma diferença entre os arquivos PDF? Em um PDF eu tenho apenas texto e os outros PDFs são textos e imagens e isso é de uma página digitalizada. Qual é o truque?

P.S .: os 2 arquivos PDF estão no mesmo diretório

por vladimir pavloski 16.08.2016 / 20:26

1 resposta

Como posso alterar os nomes e tipos de arquivos de vários arquivos de uma só vez no Ubuntu 14.04? Navegador Firefox (Ubuntu) convertendo todos os meus downloads para / tmp / files

score 2 · Accepted Answer

Existe alguma diferença entre os arquivos PDF com apenas arquivos de texto e PDF com textos e imagens de páginas digitalizadas?

Sim, arquivos PDF com arquivos de texto e PDF com imagens digitalizadas são diferentes. No pdf baseado em imagem, o computador só vê imagens e o reconhecimento de textos dentro dessas imagens requer recursos extras embutidos no mecanismo PDF, como Optical Character Reconhecimento (OCR). Os PDFs com texto são mais fáceis para o computador pesquisar porque o computador pode reconhecer o texto diretamente.

Recomendação

Uma maneira de pesquisar o pdf digitalizado é primeiro fazer o OCR nelas para extrair o texto e, em seguida, executar a pesquisa. Dê uma olhada nesta questão para um bom OCR para o Ubuntu. Qual é a melhor e mais simples solução de OCR?
Para pesquisar textos em PDFs somente com texto, recomendo a ferramenta de linha de comando pdfgrep . Existem outras boas opções também. Dê uma olhada nesta questão Como faço para pesquisar um PDF arquivo da linha de comando?