Biblioteca de OCR para ler documentos de design fixo [fechados]

0

Existe alguma biblioteca OCR / cliapp que me permite fazer algo assim:

# ./ocrapp -input file.pdf -posx 3.6cm -posy 7.8cm -width 10cm -height 1.5cm -output rawdata.txt

Estou tentando automatizar a leitura de números de ID de clientes, somas e tal de faturas e faturas digitalizadas. Eu estou procurando uma biblioteca ou um aplicativo cli porque eu quero criar meu próprio sistema de gerenciamento de documentos a partir dele;) (plataforma não é importante, apenas não osx apenas).

Uma típica fatura norueguesa é assim: link

A informação que preciso extrair está no final. (KID, Beløp e Kontonummer)

Alguma dica?

    
por Christian Wattengård 09.04.2013 / 15:36

2 respostas

0

Sugiro que você encontre uma ferramenta de recorte de linha de comando, por exemplo link no ubuntu

Você pode escrever um pequeno script para cortar cada fatura em pequenas seções que contenham o texto desejado e executá-las em qualquer programa de OCR.

Claro, se você está escrevendo um sistema de gerenciamento de documentos, tudo isso pode ser feito usando bibliotecas comuns para a sua linguagem de programação escolhida (e esta questão provavelmente deveria estar no stackoverflow)

    
por 09.04.2013 / 15:54
0

Tente usar o ABBYY Cloud OCR SDK. Este é o link para o guia detalhado de como reconhecer campos de texto: link Eu trabalho para a ABBYY e, se precisar de mais informações, estou pronto para ajudá-lo.

    
por 15.04.2013 / 09:54

Tags