Editando pesquisável .pdf OCR

2

Meu caso é bastante específico, então tentarei explicá-lo com rapidez e precisão. Eu tenho que digitalizar várias folhas de papel antigas de 230 mm x 268 mm (~ 9 "x 27,7") dobradas em 4 partes; você pode encontrar um exemplo rápido de aqui para ter uma ideia.

A varredura e a recomposição não são exatamente o problema, eu digitalizo todas as vezes e as coloco juntas via photoshop. O que preciso é de um arquivo .pdf com a imagem da página digitalizada original e também com o texto legível / pesquisável e indexável para mecanismos de pesquisa da Web.
Como você pode ver no link acima, na página também há poucas caixas ADS, que eu realmente não preciso de OCR, e podem ser deixadas de fora.

Agora, usei o Acrobat Pro X no arquivo .pdf resultante que recompus pelo Photoshop. Os resultados são muito bons, mas não perfeitos, e o que eu acho mais problemático é corrigir textos elaborados incorretamente e excluir ou excluir áreas não necessárias do documento.

O que eu gostaria de saber é se existe um aplicativo para editar o texto OCR subjacente de uma maneira mais prática do que o que o Acrobat oferece. Adobe dá no painel de ferramentas um "Find suspects" (que pode ser muito chato de usar), mas o texto suspeito nem sempre é completo com o que realmente está errado, muitas vezes caracteres que ele reconhece como corretos não são de todo (ex. Itálico "l" são considerados "/" e similares); infelizmente o meu texto é parcialmente composto de outras fontes de idiomas também, como japonês ou chinês, e o texto é transformado na maior parte das vezes como lixo, então eu também preciso corrigir o texto errado de acordo com os caracteres selecionáveis.

Uma espécie de editor de comparação, como em um único painel a imagem digitalizada, no outro o texto OCR de uma área selecionada do documento, seria a solução mais ideal, eu acho, para corrigir os erros de forma rápida e eficiente. br> A possibilidade de definir e excluir áreas do documento digitalizado a ser processado pelo OCR seria outra função muito necessária; Descobri que com o Acrobat você pode usar a ferramenta de edição de seta direta para remover quadros de texto, o que pode ser um pouco funcional, mesmo difícil de usar, pois na maioria das vezes você clica na imagem digitalizada em segundo plano.

Alguma sugestão para este tipo de trabalho? Talvez outro fluxo de trabalho seja mais prático e / ou eficiente? Qualquer dica é bem vinda!

Estou em uma máquina Win 7 de 64 bits.

    
por Gruber 15.02.2014 / 22:10

1 resposta

3

Você pode tentar o ABBYY FineReader . Ele se encaixa na descrição de suas necessidades.

    
por 19.02.2014 / 01:05