Como descobrir por que o texto não é pesquisável em um PDF (e torná-lo pesquisável)

2

Eu tenho um artigo em PDF (não criado por mim). No entanto, não consigo pesquisar texto no PDF. Todos os visualizadores de PDF que eu tentei retornam zero resultados para palavras que estão obviamente lá. Eu tentei com o Adobe Acrobat Professional 8, o SumatraPDF e o Google Chrome.

Como posso descobrir por que o documento não é pesquisável?

Coisas que eu verifiquei:

  • O PDFproducer é relatado como 'pdftopdf' e a versão do PDf é informada como 1.3. No entanto, parece que foi criado em algo como MSWord ou OpenOffice (mas não * TEX).
  • Definitivamente não é um documento digitalizado, pois a fonte é nítida em todos os níveis de zoom e o texto é selecionável.
  • Se eu olhar as configurações de segurança ( ctrl - D no Adobe Acrobat), tudo é permitido (como impressão, cópia, ...).
  • minhas opções de pesquisa não têm "caso de correspondência" ativado
  • Eu não posso transformá-lo em um documento pesquisável usando o "Reconhecer texto usando OCR" do Acrobat como ele relata: ' Esta página contém texto renderizável '.

Então, o que mais poderia ser a razão para o DPF não ser pesquisável? E como tornar o texto pesquisável?

    
por Rabarberski 06.03.2013 / 10:45

5 respostas

6
  • Ele pode ter uma codificação de fonte personalizada que atribui pontos de código a caracteres de uma maneira incompatível com codificações estabelecidas, como ASCII ou UTF-8 / Unicode.

  • Pode renderizar caracteres individualmente fora da sequência

  • Ele pode ter caracteres achatados em caminhos

Consulte o link .
e link

Para tornar o texto pesquisável, a melhor maneira pode ser voltar para a fonte original (por exemplo, um documento do Word) e usar um processo diferente para produzir o PDF. Como alternativa, você pode tentar renderizar seu PDF atual como um bitmap e depois usar o OCR, mas isso será entediante e produzirá resultados insatisfatórios.

    
por 06.03.2013 / 11:24
1

Encontrei uma maneira de contornar esse problema. Eu fiz ferramentas - > editar o texto do documento, em seguida, para cada página, eu apertei Control-A (selecione todos), então cliquei com o botão direito do mouse e fui para as propriedades, e mudei a fonte para outra coisa. Depois que fiz isso, o texto era pesquisável e eu podia copiar o texto!

    
por 29.04.2016 / 09:27
0

Eu estava tendo o mesmo problema e, frustrado, procurei uma resposta no Google. Acontece que, para mim, o problema era simplesmente que eu estava usando o Preview no meu iMac para visualizar e pesquisar o PDF. Na maioria dos casos, a pesquisa funciona na visualização. Mas, para um grande livro baixado do Google Livros, isso não aconteceu.

O que funcionou foi simplesmente abrir o PDF no Adobe Reader. (Duh, que conceito, eu sei) Agora eu posso pesquisar. Isso provavelmente não funcionará para todos com um Mac, mas pode ajudar alguém.

    
por 02.01.2017 / 20:18
0

vá para Edit / preferences - selecione 'search' no lado esquerdo da tela de preferências - então 'Purge Cache Contents' - selecione OK e feche e reabra o documento

    
por 02.06.2017 / 00:09
0

Então, depois de tentar muitas coisas que não funcionaram. Aqui está como eu realmente fiz isso:

  1. Encontre um conversor de PDF para Word ou algo assim. (Eu recomendo link )

  2. Siga todos os passos necessários para converter MAS antes disso -

  3. Localize o botão que diz algo como 'reconhecimento óptico de caracteres' e clique nele

  4. Converta seu arquivo e você deve ser de ouro.

por 01.06.2018 / 22:39