Digitalização de documentos: como acelerar a parte de software do processo de digitalização? [fechadas]

0

Estou procurando uma solução para acelerar o processo de digitalização de documentos, especialmente para documentos que não são adequados para um scanner de documentos típico com um alimentador automático de documentos (ADF). Para esses documentos, eu atualmente uso um scanner de mesa.

Primeiro, pensei que um hardware de digitalização mais rápido seria a solução (por exemplo, um scanner de câmera em vez de um scanner de mesa comum). Mas notei que o tempo total para uma varredura consiste em apenas 20% para o hardware de varredura (movimento da cabeça de varredura), mas de 80% para o software (aprimoramento de imagem e reconhecimento óptico de caracteres).

Para agilizar a verificação, observei o seguinte:  (a) software de varredura que não usaria apenas um núcleo / thread da CPU, mas vários núcleos / threads. Apesar da extensa pesquisa, ainda não consegui encontrar um programa multi-thread para o TWAIN.  (b) workflow + software: um programa que oferece a possibilidade de definir meus próprios perfis de escaneamento. Mas ainda não consegui encontrar um software que ofereça    perfis de digitalização e, ao mesmo tempo, um bom corte automático (e OCR não    somente em ingles). (c) fluxo de trabalho, ou seja, para mover o OCR para uma etapa separada (mas não ganhei velocidade com isso porque o software que acompanha os scanners de mesa da CanoScan leva o mesmo tempo para uma digitalização, independentemente de eu incluir ou não o OCR) / p>

Como posso acelerar minha digitalização?

Para aqueles que conhecem software de digitalização de documentos de terceiros no mercado: Eu verei uma diferença considerável na velocidade entre um processador i7 dual-core e um i7 quad-core?

Como software de digitalização de documentos Eu entendo software que inclui recursos de aprimoramento de imagem (por exemplo, enquadramento, corte automático, descreen), OCR (não apenas para inglês), a capacidade de salvar em vários tipos de arquivo (jpg, jpeg2000, TIFF , PDF pesquisável, PDF / A) e perfis de digitalização (= combinação definida pelo usuário de dpi, configurações de aprimoramento de imagem, idioma OCR, tipo de arquivo).

    
por user291737 12.02.2014 / 23:55

1 resposta

2

Primeiro, separe o processo de verificação do processo de pós-processamento. Faça isso digitalizando como uma imagem com uma resolução maior de 300-600DPI ou mais. Os arquivos serão grandes, mas apenas temporários até que você poste o processo. O tamanho do arquivo será o seu maior lentidão aqui, então reduza a resolução e a profundidade de bits para o mais baixo possível. (por exemplo, use a escala de cinza se você não precisa de cor). O que você não quer é 24bit imagem 1200DPI em 8-1 / 2 "x11" que são 100 de MB cada, a menos que você precise; demoram muito para salvar e abrir.

Em seguida, usando qualquer software que atenda às suas necessidades, execute o pós-processamento em um lote de acordo com sua conveniência. Todas as funções do software são diferentes, então você terá que aprender seu software.

Aqui está a captura embora. A maioria dos programas só roda em um núcleo de sua CPU multi-core, então a melhor maneira de fazer as coisas rodarem mais rápido é abrir seu programa várias vezes e dividir os lotes entre as instâncias abertas do programa. A maioria dos programas não abre várias instâncias, portanto, você precisa executar o programa a partir do menu Iniciar manualmente ou do comando Executar com um "switch" especial. Dependendo do seu programa depende de como você faz isso. O Acrobat, por exemplo, precisa ser executado a partir do comando run como "ACROBAT / N" para abrir uma nova instância se uma instância já estiver aberta.

Se eu tiver mais de 10.000 páginas para postar o processo, então, durante o dia, irei abrir três instâncias em um computador de 4 núcleos e dividir as tarefas nas três instâncias para poder usar o computador (a CPU é executada a 75 % deixando 25% para "uso de escritório"). À noite, vou executar 4 instâncias para maximizar o computador.

Mas se eu souber que o pós-processamento não demorará tanto, digamos apenas algumas horas, não me preocuparei em abrir instâncias; Vou simplesmente executar um lote e deixá-lo ir até que esteja completo. Com um computador dual core, isso permitiria que você executasse seu processamento posterior e ainda usasse o computador. A maioria dos lotes não demorará tanto tempo. esteja ciente de que se você executar 2-3 instâncias no computador dual core, seu computador pode não funcionar como uma área de trabalho para uso ativo até que os lotes sejam concluídos.

Outra opção, independentemente de você executar instâncias ou não, é entrar no gerenciador de tarefas do Windows e alterar a prioridade da CPU para as instâncias abaixo do normal, para que o trabalho ativo tenha precedência sobre o pós-processamento em segundo plano.

Quanto à velocidade, quanto mais núcleos estiverem trabalhando, mais rápido será o processamento. O problema é que se você tem uma CPU dual core na qual você executa um único aplicativo encadeado, e você compra um quad core comparável e executa o mesmo aplicativo da mesma maneira, ele não irá mais rápido. Então, o truque é rodar o seu único aplicativo segmentado várias vezes ao mesmo tempo para maximizar os recursos da sua CPU.

No final do pós-processamento, salve o (s) documento (s) no formato desejado e, em seguida, o lote do CQ antes de excluir as imagens.

Se você usa o Acrobat e executa grandes lotes, esteja preparado para problemas! Procure por soluções e encontre mais pessoas com os mesmos problemas também! O Acrobat é uma DOR!

    
por 13.02.2014 / 09:37