Por que alguns PDFs com OCR são greppable e outros não?

0

Então, digamos que eu tenha 10 arquivos que podem ser pesquisados usando o pdfgrep

Destes, alguns são pesquisáveis usando grep e outros não

Por que isso? qual é a característica que permite que um pdf seja greppbale?

    
por Roy 05.07.2013 / 18:28

1 resposta

1

Sem especificar qual é a origem desses PDFs, é difícil dizer com certeza, mas um PDF pode ser uma das poucas coisas:

  • Um documento de texto real, strings, instruções de formatação, etc. Facilmente cumpríveis.
  • Uma imagem que foi executada por meio de um mecanismo de OCR para incorporar texto sob a imagem. Facilmente cumprível.
  • Uma imagem de um pedaço de papel. Não é agradável.

Gostaria de sugerir que os que você não pode usar não tiveram seu OCR feito. Existem processos para fazer isso, mas essa é uma questão um pouco maior.

    
por Oli 05.07.2013 / 18:42