Posso reverter para o PDF sem o OCR?

0

Estou usando o Automator em combinação com o Abbys Finereader para assistir a uma pasta para novos documentos PDF digitalizados. O Finereader OCRs o documento e exporta para um novo PDF na mesma pasta. Por um mês agora eu usei o export Setting "text over page image". A explicação dos Guias do usuário sobre essa configuração é:

This option saves the background and pictures of the original document and places the recognized text over them. Usually, a PDF file saved using this option requires more disk space than a file that has been saved with the Text and pictures only option enabled. The resulting PDF document is fully searchable. In some cases, the appearance of the resulting document may slightly differ from the original.

O problema é que alguns dos PDFs que foram digitalizados e "OCRed" têm muitos caracteres errados, mas acabei de descobrir essa falha.

É possível retroceder à versão sem o OCR? Eu tentei exportar o PDF como um arquivo TIFF, mas também há os caracteres errados ...

Alguma idéia?

    
por Knob1 28.11.2016 / 15:01

1 resposta

0

Como você escreveu que escolheu "texto sobre a imagem da página", ainda deve ter as imagens digitalizadas originais em seus arquivos PDF. Para recuperá-lo: Se você tiver o Adobe Acrobat, há a opção Salvar como > Imagem > JPG, TIFF, etc. Caso contrário, use um editor de pdf gratuito, por ex. PDF-XChange Viewer e no menu Arquivo, escolha Exportar > Exportar para a imagem ... e escolher o seu formato de imagem, por ex. TIFF. Dessa forma, posso reverter meus documentos PDF com oCR (texto + imagem) de volta para as imagens originalmente digitalizadas.

Você escreveu que tentou exportá-los de volta para imagens (no Finereader?) e as imagens resultantes ainda continham "caracteres errados". Parece que você não escolheu "texto sobre a imagem da página", mas uma opção que não mantém a imagem digitalizada, mas reconstrói seu layout com o texto oculto (o Adobe Acrobat chama esse ClearScan). Esta função recria o layout da digitalização o mais próximo possível do texto OCR no formato mais adequado e não mantém a imagem digitalizada no PDF.

    
por 29.11.2016 / 19:46