Após o comentário do Glutanimate, encontrei uma solução funcional. É o script OCRmyPDF .
git clone https://github.com/fritz-hh/OCRmyPDF
cd OCRmyPDF
sh ./OCRmyPDF.sh -h # to see the usage
Se você receber uma mensagem dizendo que deve instalar o GNU paralelo. Isso pode ser feito (seguindo o link ) com (a segunda linha é opcional e depende do seu sabor e versão):
sudo apt-get install parallel
sudo rm /etc/parallel/config
Finalmente você pode OCR seu pdf com o comando:
sh ./OCRmyPDF.sh input.pdf output.pdf # change input and output to the files you want
Se parecer que o comando não está respondendo, você pode aumentar o detalhamento usando o sinalizador -v
(que pode ser usado incrementalmente como -vv
ou -vvv
). Pode ser melhor testar primeiro os resultados em um pdf mais curto. Você pode encurtar um pdf da seguinte forma:
pdftk A=input.pdf cat A1-5 output output.pdf