Posso forçar o Acrobat Professional a substituir a imagem selecionável por OCR com texto?

2

Eu tenho um livro que quero ler na tela. Ele é digitalizado a 200 dpi monocromáticos (ainda não sei o que deu errado no driver do scanner, lembro-me de configurá-lo em escala de cinza, mas não posso ter tempo para digitalizar novamente), por isso é difícil de ler. Eu gravei com o Acrobat Acrobat Pro, e foi razoavelmente bem. Mas o resultado é algo chamado "imagem pesquisável" ou "Clearscan". Eu gosto do fato de que o layout é preservado, mas o problema é que o texto é mostrado como foi digitalizado, então é difícil ler na tela. Além disso, o livro inteiro ocupa 70 MB.

Aqui você pode ver como é o texto já reconhecido:

Eu tentei outros programas de OCR, mas (além de consumir 100% de tempo de processador e memória por 2 minutos por página dupla) todos reconheceram o texto, deixando os números completamente fora. Não me importo muito com o layout e a tipografia, mas as figuras são importantes (não preciso que os rótulos de texto nas imagens sejam OCR). E eu acho que se fosse para usar ASCII para o texto e imagens para as figuras, o tamanho deveria cair consideravelmente.

Então, existe uma maneira de abandonar as imagens do texto e usar a versão com OCR para leitura, mantendo as figuras em seus lugares? Eu preferiria que o resultado final fosse um arquivo PDF, mas também estou aberto a outros formatos. Eu sei que eu poderia fazê-lo manualmente, colando o texto OCR na palavra e capturando screenshots das imagens, mas isso é muito trabalho para 520 páginas.

    
por rumtscho 11.02.2011 / 17:54

2 respostas

3

No Omnipage 16, 17, 18, você pode (melhor layout):

  • selecione os tipos de zona automaticamente ou manualmente
  • ajusta o tipo de zona, o texto, a imagem e a tabela selecionados
  • girar páginas
  • alterar páginas duplas em páginas únicas
  • exporte para pdf com e sem imagem digitalizada original (mais clara, mais fácil de ler)

O programa faz sob demanda (melhor reconhecimento).

  • endireite as páginas
  • endireitar linhas

Omnipage 17, 18 endireita páginas curvas, ângulos errados de imagens de câmera digital (close ups)

O ABBYY 8,9, 10 tem os mesmos recursos, mas dá menos resultados para imagens de câmeras digitais.

O ABBYY 10 possui um ótimo "On screen reader". Com isso, você pode reconhecer partes do texto no seu monitor. Ou até mesmo selecionar texto de livros on-line como o google books ou o sribd dot com. Gire seu monitor vertical e verifique se o texto está no tamanho máximo.

O Infix funciona para limpar o PDF reconhecido como "texto com imagens". Maneira fácil de apagar parte da página selecionada incorretamente sem imagem, etc. Também adicionando páginas a um PDF ou apagando páginas.

O Able2Abstract é ótimo para reconhecer tabelas. O PDF2XL também faz isso.

O Scan Tailor é um modo pouco amigável, mas gratuito, para obter apenas o texto em preto de uma digitalização. Quando você está faltando partes de uma página, defina os tamanhos das páginas individuais novamente.

Com Abbyy apenas obtendo o texto preto e fotos também é possível. Aqui, os arquivos de trabalho salvos contêm páginas tiff B + W. Você pode copiá-los em outro lugar, apagar os arquivos tumbs ou metadados e colocar os tiffs em multitiff ou em pdf. Este arquivo é maior que um PDF reconhecido.

Photoshop, o Paint Shop Pro pode ajudar a alterar a imagem do modo de texto digitalizado, página única ou lote.

O PaperPort (não perfeito) ajuda na digitalização, torna o texto mais preto na digitalização, corrige o texto etc. após a digitalização, mas funciona somente em páginas individuais, coloca páginas únicas em 1 pdf.

Bookmaker é caro, mais antigo ainda, corrige algumas curvas de página, os lados escurecidos podem ser apagados. O teste tem limitações, mas em algum lugar oculto algo pode ser exportado para tiffs, página por página.

Alterar os parâmetros do software do scanner pode dar uma saída melhor.

Tirar fotos de um livro de 500 páginas levaria uma hora.

  • Use tripé
  • iso 100 ou 200
  • balanço de branco manual com papel branco de livro. (Ou outro artigo que seja "mais branco")
  • boa luz, mas não luz solar direta
  • veja os grandes tons entre as páginas, gire o livro até a metade quando necessário
  • faça alguns testes
  • slr usa maior f stop como 8 ou 11 para melhor profundidade de campo
por 01.08.2011 / 14:57
0

O melhor que encontrei é isso, mas adoraria ouvir uma solução melhor com o Acrobat.

Afer OCR, você pode selecionar o texto e depois alterar a fonte:

Clique com o botão direito na seleção e selecione propriedades

vá para a guia de texto e selecione uma fonte e um tamanho de fonte.

Infelizmente, isso geralmente também manipula o layout como as posições das letras, bem como o espaçamento entre linhas.

Outra possibilidade é copiar todo o texto para um editor de texto (por exemplo, word ou openoffice) e então re-layoutar todo o texto ....

    
por 14.10.2016 / 22:09