Noções básicas sobre as opções de OCR no Adobe Acrobat: “Imagem pesquisável”, “Imagem pesquisável (exata)” e “Texto e imagens editáveis”

2

No Adobe Acrobat (estou usando o Pro DC, se isso importa), existem três opções para o OCR:

  1. "Imagem pesquisável".
  2. "Imagem pesquisável (exata)".
  3. "Texto e imagens editáveis".

Quais são as diferenças entre essas três opções?

Em particular, o que determina o tamanho do arquivo de saída? No momento, estou executando as opções 1 e 3 e parece que às vezes uma é maior e às vezes a outra é maior (e as diferenças podem ser substanciais).

Quais (se houver) são os trade-offs entre qualidade, tamanho de arquivo e velocidade de processamento de OCR?

    
por Kenny LJ 13.12.2017 / 02:00

1 resposta

1

O artigo da Ajuda da Adobe Digitalize um documento em papel para PDF , seção Reconhecer texto - caixa de diálogo Configurações gerais, define os modos de digitalização como:

Searchable Image

Ensures that text is searchable and selectable. This option keeps the original image, deskews it as needed, and places an invisible text layer over it. The selection for Downsample Images in this same dialog box determines whether the image is downsampled and to what extent.

Searchable Image (Exact)

Ensures that text is searchable and selectable. This option keeps the original image and places an invisible text layer over it. Recommended for cases requiring maximum fidelity to the original image.

Editable Text & Images

Synthesizes a new custom font that closely approximates the original, and preserves the page background using a low-resolution copy.

Downsample To

Decreases the number of pixels in color, grayscale, and monochrome images after OCR is complete. Choose the degree of downsampling to apply. Higher-numbered options do less downsampling, producing higher-resolution PDFs.

Analisarei o efeito dessas opções no tamanho do arquivo de saída.

Todas as opções mantêm a imagem, que provavelmente é um objeto grande.

Imagem pesquisável gira a imagem, o que pode alterar seu tamanho, tornando-a maior ou menor, dependendo do método de recodificação de imagem usado internamente pela Adobe

Diminuir a resolução para pode reduzir a resolução da imagem e assim reduzir seu tamanho, mas a quantidade de espaço ganho (ou perdido) depende do método de nova amostra usado internamente pela Adobe.

Texto editável & Imagens sintetiza uma nova fonte, que é então incluído no PDF e irá adicionar várias dezenas de K-bytes para o tamanho de saída.

Em suma, não há um método claro para criar o menor PDF. O montante ganho (ou perdido) depende de ambas as imagens serem OCR'ed e com que eficiência eles podem ser compactados novamente pela Adobe.

Se o objetivo é economizar espaço, Sugiro usar Texto editável & Imagens , mas como descrito neste artigo do Adobe Acrobat , especifique em Configurações "Usar fonte do sistema disponível", que pode evitar fonte personalizada. Você também pode excluir as imagens, se o texto do OCR for suficiente.

    
por 16.12.2017 / 12:33