Solução de OCR para faturas de faturamento legais [fechadas]

1

Eu tenho diferentes tipos de faturas de faturamento legais. Eu quero digitalizá-las em planilhas do Excel. Como seus layouts são diferentes e há muitos deles, não consigo encontrar uma maneira de lidar com eles. Alguém pode me fornecer uma solução prática?

    
por Willams 05.12.2013 / 02:35

2 respostas

2

Não há uma solução boa e com preço razoável que conheça: (

Você pode experimentar o Nuance OmniPage ou o Abby FlexiCapture (existem edições de desktop até as versões corporativas de $ 100k). Algum tempo atrás eu tinha comparado a qualidade SDKs / OCR entre eles. Não fazia muita diferença, embora eu achasse que Abbyy era um pouquinho melhor (a Nuance caiu algumas vezes, a Abbyy não).

Tanto o OmniPage quanto o FlexiCapture (FineReader) têm edições no desktop que pretendem converter PDFs em arquivos editáveis do Excel. Pelo que eu aprendi mexendo com as versões de teste gratuitas, eles criaram arquivos Excel editáveis, mas apenas para fontes limpas de alta qualidade. Ambos também oferecem funcionalidade de processamento em lote.

Também achei o scanstore.com um recurso incrível:

link

Se você está procurando por código aberto - o melhor 'mecanismo' é o tesserato. Você precisará construir todo o bit de captura de formulários em torno dele. Eu já pensei nisso e você precisaria:

  1. Use "códigos de barras" ou registre os tipos de fatura de outra forma
  2. Para cada tipo - descubra quais partes da fatura são tabelas
  3. Recorte a área relevante - e envie para tesserat / abbyy / nuance
  4. Receba de volta algo que pode ser analisado em uma tabela
  5. Aplique modelagem de idioma (surpreendentemente Abbyy, a Nuance faz um trabalho terrível aqui)

Ah e FYI, há muitas empresas de serviços de 'BPO' que têm pessoas reais para fazer o trabalho de entrada de dados. Não é tão caro quanto você pensa.

    
por 05.12.2013 / 03:01
1

Aqui estão alguns softwares OCR gratuitos: CuneiForm, GOCR, Ocrad, OCRopus, Tesseract. Mas o resultado não é tão bom. Mas você pode experimentar o FineReader, o ExperVision, o OmniPage, o resultado será melhor. No entanto, com base na minha experiência, você não pode confiar na solução de tecnologia pura. Se você quiser controlar o custo do seu projeto por um preço razoável. Integrar a tecnologia OCR e recursos humanos é uma boa escolha. Até onde eu sei, a Expervision pode fornecer tanto tecnologia de OCR personalizada quanto serviço de BPO, você pode conferir a web deles. Expervision

    
por 06.12.2013 / 04:50