Sem especificar qual é a origem desses PDFs, é difícil dizer com certeza, mas um PDF pode ser uma das poucas coisas:
- Um documento de texto real, strings, instruções de formatação, etc. Facilmente cumpríveis.
- Uma imagem que foi executada por meio de um mecanismo de OCR para incorporar texto sob a imagem. Facilmente cumprível.
- Uma imagem de um pedaço de papel. Não é agradável.
Gostaria de sugerir que os que você não pode usar não tiveram seu OCR feito. Existem processos para fazer isso, mas essa é uma questão um pouco maior.