Para PDF, há pdfsandwich
pdfsandwich generates "sandwich" OCR pdf files, i.e. pdf files which contain only images (no text) will be processed by optical character recognition (OCR) and the text will be added to each page invisibly "behind" the images.
É um processo de 2 etapas:
-
Adicione o texto do OCR a um novo PDF com (aqui eu uso o mecanismo de OCR do tesseract com o idioma francês):
pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf
-
Em seguida, converta o PDF / OCR em DjVu com:
pdf2djvu -o ./ocr.djvu ./ocr.pdf