Aqui estão algumas coisas que encontrei quando pesquisei no começo deste ano. Desculpe, não posso postar mais de um hiperlink devido à minha classificação limitada, então você terá que procurar os links no Google.
gscan2pdf
Um sistema de GUI realmente bom que pode usar vários mecanismos de OCR para o back-end. Isso provavelmente atenderá a sua solução de um toque (e o digitxp já mencionou isso).
Motor OCR Tesseract
Pode ser usado com o gscan2pdf.
Ocropus
Eu não cheguei muito longe com o ocropus porque ele não estava reconhecendo texto sem treinamento extensivo. Provavelmente seria muito bom para livros, mas não funcionou bem para mim com contas e tal. YMMV.
Cuneiforme
Tive o melhor resultado com o Cuneiform e consegui criar PDFs pesquisáveis com scripts semelhantes ao seguinte fluxo de trabalho:
# extract images from scans
# (not shown)
# convert to black-and-white
optimize2bw -n -i nuance-test.png -o bw.bmp
# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp
# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html
Você também precisará instalar o pacote de imagens exatas.
Vários projetos de código aberto para o uso de OCR em PDFs Cuniform e hocr2pdf também:
- WatchOCR
- Archivista
Deixe-me saber o que você descobriu!