Como criar PDF com páginas digitalizadas, mas texto selecionável?

31

Hoje recebi um PDF de nosso fornecedor e ele continha várias páginas impressas e digitalizadas com assinaturas, etc. Abri-o no Acrobat Reader DC. Mas, para minha surpresa, o texto das imagens evidentemente digitalizadas podia ser selecionado e copiado como um texto. Veja a captura de tela:

Existe, evidentemente, algum OCR por trás disso, pois o texto copiado contém erros. Mas como isso é possível? Eu nunca vi isso antes, como isso pode ser criado?

    
por Vojtěch Dohnal 09.02.2018 / 10:16

4 respostas

53

Isso (ao contrário de algumas outras respostas aqui) provavelmente não tem nada a ver com o Acrobat.

A maioria dos scanners de documentos profissionais e a maioria dos semi-profissionais automaticamente executam o OCR quando você escolhe "Salvar como PDF" e tem a caixa de seleção "pesquisável" marcada nas configurações. Os modelos mais baratos de "grau de consumo" farão o OCR no PC conectado, os scanners de rede típicos fazem isso internamente.

A palavra "pesquisável" significa nada mais e nada menos do que o scanner executará o OCR, gerará uma página com os bitmaps digitalizados e os sobreporá com caracteres invisíveis do OCR, cada um colocado sobre o respectivo caractere. bitmap.

Dessa forma, você pode pesquisar e também selecionar, copiar e colar o "bitmap" como que por mágica. Não é mágica, no entanto. Na realidade, você está apenas copiando um texto invisível.

O scanner também pode fazer alguma mágica adicional, como a composição da imagem grande de muitos pequenos blocos que também são reutilizados. Isso resulta em um tamanho de documento muito menor do que seria realmente possível, mas também pode levar a surpresas engraçadas (não tão engraçadas se acontecerem com você!), Como o A Xerox altera sua história de notas , ironicamente, mesmo quando não há OCR, dependendo do firmware.

    
por 09.02.2018 / 14:20
9

But how is this possible?

Basicamente, um programa executa o OCR no arquivo de entrada e, em seguida, coloca uma camada invisível de texto sobre a imagem. Alternativamente, também pode colocar uma camada visível de texto sob a imagem, dando o mesmo efeito.

Quando você seleciona algo, a imagem não importa, porque a camada de texto é selecionada.

how can this be created?

Existem várias maneiras. Como o Acrobat já foi sugerido, adicionarei algumas opções gratuitas (e, felizmente, você não será forçado a usar o Windows para usá-las).

PDF-XChange Viewer

Este é um programa nativo do Windows da Tracker Software . A versão freeware roda bem no Wine se você usar a edição de 32 bits em um prefixo de 32 bits, portanto, você pode usá-la no Windows, macOS e Linux. Nos últimos dois casos, você precisaria PlayOnMac ou PlayOnLinux, respectivamente.

Aqui está uma foto de esta resposta que deixei no Ask Ubuntu:

OCRmyPDF

EsteéumprogramamultiplataformaescritoemPython,baseadonoGhostscript,TesseracteUnpaper.Dosdocumentos:

WhatOCRmyPDFdoes

OCRmyPDFanalyzeseachpageofaPDFtodeterminethecolorspaceandresolution(DPI)neededtocapturealloftheinformationonthatpagewithoutlosingcontent.ItusesGhostscripttorasterizethepage,andthenperformsonOCRontherasterizedimagetocreateanOCR“layer”.ThelayeristhengraftedbackontotheoriginalPDF.

PodeserfacilmenteinstaladoemDebianederivadosdoUbuntu:

apt-getinstallocrmypdf

OunomacOS:

brewtapjbarlow83/ocrmypdfbrewinstallocrmypdf

NoWindows,vocêprecisariausaraimagemdoDocker.Vejaosdocumentosoficiaisparadetalhes.

Ousoémuitosimplesesugiroquevocêuseosparâmetrosopcionais-d(deskew)e-c(clean)paraobtermelhoresresultados.Eleendireitarátodasaspáginaselimparápequenospontos/imperfeiçõesantesdeexecutaroprocessodeOCR.

Vocêpode(edeve)forneceroidiomacom-l.

Vejaumexemplotiradode este documento distorcido escrito em italiano:

Ocomandoqueuseifoi:

ocrmypdf-lita-d-cinput.pdfoutput.pdf

Ferramentason-line

Existemalgumasferramentason-linequefazemomesmo.Notável,oPDF24hospedauma versão gratuita baseada na Web do OCRmyPDF que pode ser usada sem limitações.

Veja também:

por 10.02.2018 / 22:03
4

Isto é possivelmente devido a um Recurso OCR do Acrobat :

Acrobat can recognize text in any PDF or image file in dozens of languages. All you have to do is open the scanned document or image that you'd like to OCR, then click the blue Tools button in the top right of the toolbar. In that sidebar, select the Recognize Text tab, then click the In This File button.

...

With the text recognized, you can now markup the PDF using all the normal markup tools — you can highlight, cross out text, and more. You can even copy the text with the detected formatting, though that's often less accurate than the text recognition itself.

    
por 09.02.2018 / 10:25
3

Em site da Adobe

Recognize text in a Scanned PDF file

When you scan paper documents to PDF, you’re really just taking pictures of those documents. That’s great for photos and other printed images, but what if you’ve got a 200-page document in which you need to find a particular word or phrase? Use Acrobat to recognize the text in that scanned file, making the text content searchable and usable.

  1. With your scanned document open in Acrobat, open up the Tools pane and expand the Text Recognition panel. If you can’t see “Text Recognition” in the Tools pane, you can add it by selecting the menu in the upper right corner (image below – see where that little red arrow is pointing? Click there).
  2. Click on “In This File” to scan the document you’ve got open. You can just accept the default settings and click “Okay” when the Recognize Text box pops up. Acrobat will convert the image into usable text; to test it out, just try editing a word or sentence with the Content Editing panel. Isn’t that awesome!?
    
por 09.02.2018 / 10:25