Aplique metadados aos arquivos baseados em OCR de seu conteúdo

1

Essencialmente, estou procurando uma ferramenta (Windows / Mac) que me permita o seguinte fluxo de trabalho:

  1. Digitalize TODOS os meus documentos para uma pasta (200-300 imagens digitalizadas)
  2. execute a ferramenta que percorrerá todos os arquivos e executará o OCR neles
  3. com base no OCR, os metadados são aplicados em cada arquivo.
  4. Eu, então, leio os metadados e, consequentemente, categorizo os arquivos por meio de um processo em lote.

Embora haja algumas sugestões no SU & SE para fazer OCR simples em arquivos, eu não pude encontrar uma solução que essencialmente me permite fazer coisas como programáticas baseadas nos dados OCR-ed dos documentos.

O modelo de documento é padrão, por isso sabemos que tipo de arquivo esperar. Nós só queremos escanear todo o grupo e, em seguida, executar um processo de back-end que categoriza / carrega ordenadamente nas respectivas pastas. Ter isso OCR'ed me dá a opção de pesquisar dentro do arquivo, enquanto eu abri-lo em um programa como o Acrobat reader / Preview. Mas quero executar essa lógica de categorização a partir de um script batch / shell / apple. Coisas como o prefixo do número do documento para o nome do arquivo, etc.

    
por Kaushik Gopal 17.04.2012 / 12:15

1 resposta

0

O que você descreve parece ser um cenário de uso exclusivo. Eu não acredito que existem soluções que funcionam da maneira que você descreve fora da caixa. Se este é um projeto não comercial / estudo, você não tem muita escolha, especialmente para janelas. Basta procurar no google o que você pode fazer.

Se você tem algum orçamento, você tem várias opções. Não está muito claro se você precisa de solução pronta ou um SDK, eu suponho que você precisa do primeiro, então por que você não dá uma olhada em servidor de reconhecimento , é uma solução de OCR baseada em servidor projetada para processamento de documentos de médio a alto volume em grandes departamentos e empresas. Ele pode ser implantado como um programa independente ou integrado a um sistema de terceiros, como DMS, RMS e sistema de arquivamento eletrônico.

Eu trabalho na @ ABBYY e posso fornecer mais informações, se necessário. Espero que ajude!

    
por 23.04.2012 / 15:46