Você precisa OCR (Optical Character Recognition)
para extrair texto das imagens. Se você Google OCR
você encontrará muitas opções on-line OCR software
que tenta extrair texto das imagens. Eu pessoalmente nunca usei um tão difícil para dizer como eles são bem sucedidos. Você notará que alguns deles pegam arquivos de imagem como uma entrada, nesse caso você terá que converter o PDF
para um formato de imagem (ferramentas para isso também estão disponíveis on-line).
Se você tem mais inclinação técnica, há uma biblioteca Python
pytesser
que pode ser útil.
Capture2Text
é uma ferramenta de código aberto que executa o OCR em um screenshot
e gera o resultado na área de transferência de modo que quase Parece que você está copiando o texto da imagem. Esta é provavelmente a sua melhor aposta.