Procurando por recomendações sobre o problema de OCR - dados numéricos tabulares

2

Eu tenho 20 páginas de dados de medição de experimentos que preciso digitalizar. Os resultados estão em formato tabular, digitalizados em resolução de 600 dpi e, na medida em que as digitalizações são feitas, eles são bem limpos e legíveis.

Veja um exemplo de como fica:

...eeuprecisoquetermineatédomingoàtarde(:-o)<-smileyemestadodepânico

(entãoporquevocênãocomeçoumaiscedo?)...sim,sim...eusei...mas,chegoutarde,eeunãoestavapensandoqueiriaprecisardessesdadostambém.

Então,estouprocurandorecomendações.EunãotenhomuitaexperiênciacomprogramasdeOCR,salvodigitalizarumapáginaouduasdetextopuro,massóparamencionar,eunãotenhoodesejotambémdetestartodososprogramasdeOCRporaí.Portanto,estenãoéum"nome favorito do seu OCR".

O que eu estou procurando é o conselho de alguém que tenha feito algo assim, e a experiência dele / dela sobre qual seria a melhor maneira de fazer isso.

Eu preciso dos dados em formato txt, mas como ele terá que ser verificado (desenhando-o, e simplesmente observando se alguns pontos "saltam") eu provavelmente estarei inserindo-o no Excel no começo.

    
por Rook 02.04.2010 / 00:23

1 resposta

1

Eu usei a página Omnipage e Finereader no passado de forma limitada. De acordo com a CNET :

"OmniPage Pro 12 Office aced table-data translations, not only nailing the content but also reproducing the correct fonts and formatting. With long stretches of text, it made remarkably few recognition errors--far fewer than Abbyy FineReader."

Note que o Omnipage está na versão 17 agora, então não sei qual dos dois é melhor, mas presumo que o Omnipage faria o que você precisa.

    
por 01.02.2011 / 11:54

Tags