pdfsandwich
Faz o que você quer e fornece pacotes deb do Ubuntu. Ele usa o tesseract como mecanismo de OCR. A seguinte chamada adiciona a camada de texto ao seu PDF digitalizado:
pdfsandwich scanned.pdf
A seguir faz o mesmo, mas com outro idioma (código ISO 639-2, faça o download do pacote tesseract-ocr-LANGCODE
) e define o layout:
pdfsandwich -verbose -lang spa -layout single scanned.pdf
Se você receber algum erro, por favor, faça o download da última versão do deb do Sourceforge .
Aviso: Eu sou o desenvolvedor do pdfsandwich e, portanto, obviamente tendencioso.