Procurando por software para renomear o nome do arquivo de imagem JPEG scan do documento para texto na imagem [fechado]

2

Estou digitalizando em muitos documentos em papel A4 para JPEG usando um scanner de alimentador automático de documentos.

Os resultados são FILE0001.JPG FILE0002.JPG, etc.

Eu gostaria que um programa renomeie o título do nome do arquivo para texto encontrado na própria imagem jpeg digitalizada. De preferência, para determinar o título, o programa procuraria o maior texto na imagem e que aparecesse mais próximo do topo da imagem.

Estou ciente de vários aplicativos de OCR comerciais e alguns gratuitos e estaria disposto a comprar, se necessário, no entanto, eles parecem ter mais do que eu preciso: eles convertem para PDF etc. Considerando que eu preferiria simplesmente mantê-lo simples e trabalhar com a imagem digitalizada original.

Gostaria de receber programas prontos para usar no Windows XP, 7 ou MacOS.

    
por therobyouknow 19.01.2013 / 13:21

2 respostas

1

O que você está procurando é algo extremamente complexo e improvável de ser confiável, mesmo que possa ser encontrado.

Acho que o melhor que você poderia esperar seria usar o Microsoft OneNote (parte do Office) ou o Evernote (tem uma versão gratuita).

Ambos são capazes de processar imagens de OCR em notas - em segundo plano - deixando qualquer texto descoberto pesquisável. Eu não tenho certeza se eles iriam pegar o título da nota do texto, eles podem se você se certificar de que nenhum outro texto está na nota. Dê-lhes uma chance.

Esteja avisado, porém, que o OCR, mesmo de documentos digitados ou digitalizados, está longe de ser confiável e, mesmo assim, saber o que constitui um título, embora fácil de ser analisado pelos humanos, é uma tarefa muito difícil para um computador.

ATUALIZAÇÃO: A complexidade vem de várias coisas. O ato de OCR'ing uma imagem para texto é complexo o suficiente para uma máquina fazer. Existem tantas complexidades na linguagem que é muito difícil identificar o significado de uma imagem mesmo quando essa imagem é composta. Até mesmo os caracteres compostos variam enormemente, especialmente quando digitalizados devido a limitações de digitalização, alterações de ângulo, texto de origem manchado ou danificado (por exemplo, uma dobra no papel) e assim por diante. Em segundo lugar, o que é um título? Obviamente, você pode pensar - algo de um tamanho maior do que a "média" em direção ao topo da página? Como o sistema calcula o tamanho médio da fonte? Itself uma tarefa significativa, uma vez que precisa "analisar" a varredura inteira. Depois, há muitas combinações de layout - quais delas a máquina deve tentar reconhecer? Veja um relatório de negócios médio, por exemplo, pode ter vários elementos de texto com título.

Cada um desses bits de processamento levará um tempo significativo até mesmo em um PC moderno e envolverá grandes quantidades de processamento de dados: limpe a imagem, endireite a imagem (reconhecendo bordas e "linhas" de texto), escolha estilos de fonte para entender o que é texto e o que não é, tente reconhecer o texto (provavelmente aplicando regras de ortografia e gramática), calcule os tamanhos de fonte e a média, identifique elementos repetitivos (cabeçalhos / rodapés) para ignorar, tente identificar texto maior cedo no documento. Adivinhe o título, verifique se é um nome de arquivo válido para a plataforma, altere se não, assegure-se de que o nome seja único e não utilizado. Ufa!

Na melhor das hipóteses, a maioria das ferramentas OCR tem por volta de 90% de precisão de digitalizações padrão com documentos limpos e diretos. Você quer ter 90% de documentos com título exato? Isso pode ser bom para você, mas os clientes de um produto agüentariam isso? Depois de todo o desenvolvimento, o risco valeria a pena para os fornecedores?

Eu não sei as respostas para essas perguntas. Eu posso ver que poderia ser um ótimo recurso, mas eu não estou ciente de que alguém oferece isso (eu fiz uma verificação rápida via Google também).

Seria mais fácil se todos os seus documentos tivessem o mesmo layout. Então você poderia usar "zoning", algo que a maioria das melhores ferramentas oferece e tomar a zona apropriada como base para o nome do arquivo. Isso seria mais (mas não completamente) confiável. Talvez você deva verificar com alguns dos fornecedores se eles estão interessados em fazer isso.

    
por 19.01.2013 / 14:10
0

Você pode fazer isso simplesmente clicando na imagem > renomear > (seu nome) .jpg > enter

Isso será feito! Apenas lembre-se de manter a extensão do arquivo: .jpg

Isso é tudo. Tudo de bom!

    
por 18.08.2014 / 13:57