Como criar PDFs de alta fidelidade com texto copiável de digitalizações?

2

Algumas empresas fornecem software para Windows com seus scanners * que podem criar PDFs de páginas digitalizadas que se parecem exatamente com o material digitalizado (como se fossem apenas imagens de página inteira), mas o texto é reconhecido e copiável.

Como posso criar PDFs como este no Ubuntu?

Note que não quero converter texto digitalizado em texto normal. Eu gostaria de manter o PDF resultante com uma aparência perfeita como as páginas originais, mas adicionar uma camada de texto reconhecida para facilitar o uso.

Eu tenho um scanner de alta resolução que uso com o XSane atualmente. Ele digitaliza bem as páginas e cria imagens bonitas e com alta DPI.

* ou seja, Canon com o LiDE 220

    
por Damn Terminal 24.09.2017 / 13:16

1 resposta

2

Preâmbulo

Você está procurando um sanduíche PDF, , ou seja, um PDF digitalizado com uma camada invisível de texto (ou uma camada de texto que é simplesmente colocada atrás da imagem de cada página).

Existem várias maneiras de criar uma. Eu vou usar o Abordagens de Ponderação de Prazo na Recuperação Automática de Texto em papel como um exemplo de documento que precisa de OCR.

O comando pdfsandwich

Primeiro, instale essa ferramenta nos repositórios:

sudo apt install pdfsandwich

Você pode simplesmente executá-lo no seu arquivo PDF e esperar:

pdfsandwich document.pdf

No passado, este método não era muito preciso, especialmente w.r.t. posicionamento de texto. Parece que agora as coisas melhoraram muito. Exemplo do PDF:

  

Resumo - As evidências experimentais acumuladas nos últimos 20 anos indicam que

Se você destacar o texto no Evince, as caixas pretas serão exibidas.

PDF-XChange Viewer

Este é um programa freeware, somente para Windows que funciona perfeitamente no Wine se você usar a versão de 32 bits em um prefixo Wine de 32 bits. Para isso, sugiro usar o PlayOnLinux porque é muito fácil selecionar a versão mais recente do Wine e o fato de você querer um prefixo de 32 bits.

Uma vez instalado, você pode executá-lo e selecionar o ícone de OCR na barra de ferramentas:

A saída geralmente é muito boa e o posicionamento do texto é preciso. Exemplo do PDF:

  

Resumo - As evidências experimentais acumuladas nos últimos 20 anos indicam que

Se você destacar o texto no Evince, o texto será mostrado em uma fonte sem serifa.

OCR.space

Este é realmente um serviço da web. Vá para ocr.space e selecione seu arquivo e idioma, depois marque a opção "Criar PDF pesquisável com camada de texto invisível". Pressione o botão e aguarde até que o documento seja carregado e convertido.

Infelizmente, existe um erro para páginas horizontais e elas não são renderizadas corretamente na saída. Eu notifiquei os autores disso e eles reconheceram o problema.

    
por Andrea Lazzarotto 05.10.2017 / 15:46