Código aberto preferido, mas não necessário.
Tenho o Adobe Acrobat 8 e gosto muito do recurso de OCR, que basicamente pode colocar uma camada invisível de texto com OCR sobre um documento digitalizado. Assim, o que você vê na tela é o documento original digitalizado, mas o resultado é pesquisável.
O que estou procurando é uma maneira de automatizar esse processo. No momento, tenho alguns scripts que utilizamos para processar e arquivar arquivos digitalizados, e estou procurando algo que possa ser inserido nesse processo em lote para fazer o OCR de maneira semelhante ao que posso fazer com o Acrobat.
Todas as sugestões são bem-vindas, obrigado!
Tags pdf ocr document-management