Como você está trabalhando com um PDF digitalizado, o próprio PDF contém dados de imagem compactados. Não contém o texto como tal. Assim, sua solução precisa:
- Extraia a imagem do pdf para um formato de imagem
- Possivelmente analise o texto com uma ferramenta de OCR dedicada
Da sua pergunta, não está claro qual SO e ferramentas você tem à sua disposição, nem qual é a sua capacidade de criação de scripts. Por causa disso, aqui está uma resposta genérica agora, e esse processo é bastante automatizável (sujeito a variações nos pdfs) se você precisar repeti-lo várias vezes.
Se você estiver fazendo isso manualmente, o primeiro passo pode ser tão simples quanto a tela de impressão e o possível corte. Uma alternativa é usar uma ferramenta para converter o documento pdf em um arquivo de imagem . Então você pode cortar de acordo com suas necessidades, por exemplo, com o gimp .
Para a segunda etapa, você pode usar qualquer software de OCR , por exemplo, Tesseract .