Não há uma solução boa e com preço razoável que conheça: (
Você pode experimentar o Nuance OmniPage ou o Abby FlexiCapture (existem edições de desktop até as versões corporativas de $ 100k). Algum tempo atrás eu tinha comparado a qualidade SDKs / OCR entre eles. Não fazia muita diferença, embora eu achasse que Abbyy era um pouquinho melhor (a Nuance caiu algumas vezes, a Abbyy não).
Tanto o OmniPage quanto o FlexiCapture (FineReader) têm edições no desktop que pretendem converter PDFs em arquivos editáveis do Excel. Pelo que eu aprendi mexendo com as versões de teste gratuitas, eles criaram arquivos Excel editáveis, mas apenas para fontes limpas de alta qualidade. Ambos também oferecem funcionalidade de processamento em lote.
Também achei o scanstore.com um recurso incrível:
Se você está procurando por código aberto - o melhor 'mecanismo' é o tesserato. Você precisará construir todo o bit de captura de formulários em torno dele. Eu já pensei nisso e você precisaria:
- Use "códigos de barras" ou registre os tipos de fatura de outra forma
- Para cada tipo - descubra quais partes da fatura são tabelas
- Recorte a área relevante - e envie para tesserat / abbyy / nuance
- Receba de volta algo que pode ser analisado em uma tabela
- Aplique modelagem de idioma (surpreendentemente Abbyy, a Nuance faz um trabalho terrível aqui)
Ah e FYI, há muitas empresas de serviços de 'BPO' que têm pessoas reais para fazer o trabalho de entrada de dados. Não é tão caro quanto você pensa.