Como substituir imagens de texto em PDFs com texto formatado usando o OCR

4

Recebo muitos PDFs de outras pessoas que consistem em documentos antigos digitalizados. Infelizmente, às vezes o texto nas digitalizações, embora legível, parece granulado e é difícil de ler.

O que eu consegui fazer até agora é extrair o texto, usando o OCR, em um documento do Word. No entanto, como esses documentos antigos geralmente têm ilustrações e formatações complexas, o que eu realmente gostaria de poder fazer é remover o antigo texto granulado e substituí-lo por fontes geradas por computador. Em outras palavras, eu gostaria de preservar o PDF e a formatação de suas páginas na maior medida possível, enquanto "limpando" o texto, substituindo-o por, digamos, times new roman.

Eu tenho procurado por alguns dias on-line por uma maneira simples e automatizável de realizar essa limpeza, e até agora não encontrei nada. Definitivamente, parece que deve haver uma maneira de fazer isso, não parece tão complicado, mas talvez eu esteja negligenciando alguns aspectos desse problema que o colocam fora do que é atualmente factível com o OCR.

Alguma sugestão?

    
por tel 20.08.2010 / 03:03

2 respostas

2

Até mesmo o próprio software da Adobe não é bom em fazer isso ou deixar claro como fazê-lo.

Com o Adobe Acrobat X, você pode criar uma camada de texto pelos menus (Exibir | Ferramentas | Reconhecer texto) ou clicar em Ferramentas na barra de ferramentas e, em seguida, Reconhecer texto no painel Ferramentas.

Você então tem opções para executar o OCR no documento ou encontrar "suspeitos". Os "suspeitos" são possíveis resultados de OCR que não parecem corretos (não corrigidos ortograficamente?). Uma vez que você tenha passado pelos suspeitos, parece não haver nenhuma maneira de acessar ou editar a camada de texto novamente antes de refazer o OCR.

Você pode escolher intervalos de páginas para limitar o OCR (por exemplo, se tiver um documento multilíngue), mas não pode limitá-lo a uma seleção.

Dado que este é um recurso tão útil, é decepcionante que a Adobe não seja muito fácil de usar.

Editar: Duas outras soluções possíveis.

Adobe Acrobat usando o ClearScan

Quando você executa o OCR com o Adobe Acrobat, pode alterar o Estilo de saída do PDF do formato de imagem pesquisável padrão para ClearScan. Esse formato também alterará a imagem, substituindo caracteres por contornos derivados do OCR. Isso tornaria seu PDF mais legível e adicionaria uma camada de texto, mas alteraria a imagem original.

Editor PDF do Infix

Este programa parece ser capaz de exibir a camada de texto, mas ainda parece complicado consertar os locais onde o OCR da Adobe erra (por exemplo, palavras isoladas em seu próprio ponto de vista).

Infelizmente, nenhuma dessas opções está disponível gratuitamente.

    
por 13.06.2013 / 05:37
0

Depende da sua circunstância exata (fontes usadas, diagramas, quanta limpeza é necessária ...), mas tive bons resultados com o FineReader Professional Edition ... Escaneia os formatos de imagem mais comuns (digitalização, tiff, jpg etc. .) e pode converter para html ou word entre outros ...

Não é grátis, mas você não disse que estava procurando por isso. Eu tive um monte de OCR que eu estava fazendo há algum tempo atrás, e ele fez um espetacular trabalho de OCR com uma baixa taxa de erro . < < --- Eu não sei sobre hoje, mas cinco anos atrás, quando eu obtive isso, tentei alguns outros pacotes de OCR e a precisão do reconhecimento de texto era geralmente "péssima" ... embora eles fossem anuncie-o (corretamente) como 90-95-98%. O problema é que, mesmo em 99%, você está olhando para várias palavras para corrigir / página de texto. Isso foi muito alto para o meu nível de tolerância.

Eu aposto que a taxa bruta de varejo era um pouco cara (mas eu geralmente gosto de comprar um SW melhor, eu sou fluente em "gninux-ese"), mas eles têm ofertas (ou quando eu comprei) , de atualizar de outro software para cerca de 50% do seu preço de varejo, que, também, é sobre o seu preço de atualização. Eu comprei, no entanto, quando estava na versão 6 ou 7, quando tive projetos mais novos que exigiam algo similar - comprei uma atualização para a versão atual. A última compra que eu fiz foi 9.0.

Meu único [ obscuro ] beef w / it foi não reconhecendo Unicode e não produzindo arquivos unicode. Eles têm 186 idiomas (leitura do website) atualmente suportados (AFAIK, todos os idiomas estão incluídos no Prof. Ver.), Mas salvaram arquivos em conjuntos de caracteres codificados por regiões ou 'páginas de códigos' (ibm-cp850, ms-cp1250, iso-8859-1, etc ...) em vez de UTF-8 - que foi minha preferência. Eu estava digitalizando arquivos em alfabeto misto que eu acabaria editando em UTF-8.

O software deles faz um ótimo trabalho sem treinamento. Pode ser treinado para reconhecer letras específicas do usuário, embora eu não achasse esse processo tão conveniente quanto eu gostaria (mas realmente não era necessário para a maioria do que eu fiz (ou faço).

Com a versão que tenho (9), também é possível ler coisas de uma captura de tela, o que ocasionalmente é conveniente para programas que não permitem copiar / colar.

Eles parecem ter uma opção de tentar antes de comprar, agora também: website: finereader.abbyy.com (profissional prod @ link ).

    
por 20.08.2010 / 04:55