Como pesquisar texto em arquivos PDF com o docfetcher?

0

Estou tentando encontrar algum texto em arquivos PDF, mas os resultados não são precisos! Por exemplo, tenho 2 arquivos PDF com a palavra domiciiado . Quando faço uma busca por essa palavra (domiciliado), o docfetcher mostra apenas UM arquivo PDF com essa palavra. Minha pergunta é por que o docfetcher não mostra o outro arquivo PDF com essa palavra? Existe uma diferença entre os arquivos PDF? Em um PDF eu tenho apenas texto e os outros PDFs são textos e imagens e isso é de uma página digitalizada. Qual é o truque?

P.S .: os 2 arquivos PDF estão no mesmo diretório

    
por vladimir pavloski 16.08.2016 / 22:26

1 resposta

2

Existe alguma diferença entre os arquivos PDF com apenas arquivos de texto e PDF com textos e imagens de páginas digitalizadas?

Sim, arquivos PDF com arquivos de texto e PDF com imagens digitalizadas são diferentes. No pdf baseado em imagem, o computador só vê imagens e o reconhecimento de textos dentro dessas imagens requer recursos extras embutidos no mecanismo PDF, como Optical Character Reconhecimento (OCR). Os PDFs com texto são mais fáceis para o computador pesquisar porque o computador pode reconhecer o texto diretamente.

Recomendação

  • Uma maneira de pesquisar o pdf digitalizado é primeiro fazer o OCR nelas para extrair o texto e, em seguida, executar a pesquisa. Dê uma olhada nesta questão para um bom OCR para o Ubuntu. Qual é a melhor e mais simples solução de OCR?

  • Para pesquisar textos em PDFs somente com texto, recomendo a ferramenta de linha de comando pdfgrep . Existem outras boas opções também. Dê uma olhada nesta questão Como faço para pesquisar um PDF arquivo da linha de comando?

por Anwar 16.08.2016 / 22:37