Preâmbulo
Você está procurando um sanduíche PDF, , ou seja, um PDF digitalizado com uma camada invisível de texto (ou uma camada de texto que é simplesmente colocada atrás da imagem de cada página).
Existem várias maneiras de criar uma. Eu vou usar o Abordagens de Ponderação de Prazo na Recuperação Automática de Texto em papel como um exemplo de documento que precisa de OCR.
O comando pdfsandwich
Primeiro, instale essa ferramenta nos repositórios:
sudo apt install pdfsandwich
Você pode simplesmente executá-lo no seu arquivo PDF e esperar:
pdfsandwich document.pdf
No passado, este método não era muito preciso, especialmente w.r.t. posicionamento de texto. Parece que agora as coisas melhoraram muito. Exemplo do PDF:
Resumo - As evidências experimentais acumuladas nos últimos 20 anos indicam que
Se você destacar o texto no Evince, as caixas pretas serão exibidas.
PDF-XChange Viewer
Este é um programa freeware, somente para Windows que funciona perfeitamente no Wine se você usar a versão de 32 bits em um prefixo Wine de 32 bits. Para isso, sugiro usar o PlayOnLinux porque é muito fácil selecionar a versão mais recente do Wine e o fato de você querer um prefixo de 32 bits.
Uma vez instalado, você pode executá-lo e selecionar o ícone de OCR na barra de ferramentas:
A saída geralmente é muito boa e o posicionamento do texto é preciso. Exemplo do PDF:
Resumo - As evidências experimentais acumuladas nos últimos 20 anos indicam que
Se você destacar o texto no Evince, o texto será mostrado em uma fonte sem serifa.
OCR.space
Este é realmente um serviço da web. Vá para ocr.space e selecione seu arquivo e idioma, depois marque a opção "Criar PDF pesquisável com camada de texto invisível". Pressione o botão e aguarde até que o documento seja carregado e convertido.
Infelizmente, existe um erro para páginas horizontais e elas não são renderizadas corretamente na saída. Eu notifiquei os autores disso e eles reconheceram o problema.