A melhor e mais fácil maneira de usar o pypdfocr
não muda o pdf. pypdfocr é um link para o módulo python aqui
pypdfocr your_document.pdf
No final, você terá outro your_document_ocr.pdf
da maneira que desejar com texto pesquisável. O aplicativo não altera a qualidade da imagem. Aumenta o tamanho do arquivo adicionando o texto de sobreposição.
Eu acho que o comando é bem fácil de não precisar de nenhuma GUI. Talvez a instalação do pypdfocr seja um pouco mais detalhada:
sudo dnf -y install tesseract
pip install pypdfocr
Atualização de 3 de novembro de 2018:
pypdfocr
não é mais suportado desde 2016 e notei alguns problemas devido a não serem mentalizados. O ocrmypdf
( module ) faz um trabalho similiar e pode ser usado assim:
ocrmypdf in.pdf out.pdf
Para instalar:
pip install ocrmypdf
ou
sudo apt install ocrmypdf #ubuntu
sudo dnf -y install tesseract #fedora