Como faço para converter um PDF digitalizado em um PDF com texto

27

Eu digitalizei cerca de 80 páginas em escala de cinza pdf (formato de imagem). O tamanho final do arquivo é de cerca de 70MB, o que é muito grande.

Agora estou procurando um método para converter o arquivo PDF baseado em imagem em escala de cinza em um simples arquivo PDF preto / branco baseado em texto.

Eu fiz muitas tentativas com gs , mas sem sucesso (apenas uma recuperação de alguns por cento). Se algum especialista tem alguma idéia, por favor me avise.

    
por Admiral 14.03.2013 / 22:40

5 respostas

19

gImageReader é um front end simples do GTK + para tesseract-ocr .

sudo apt-get install gimagereader tesseract-ocr

desculpa pelo texto em alemão

    
por A.B. 21.04.2015 / 21:56
6

Você pode tentar o pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Para executar a sintaxe é

 pdfocr -i input.pdf -o output.pdf

em que input.pdf é o nome do arquivo de entrada e output.pdf do arquivo de saída.

Por padrão, ele usa o Tesseract. Para instalá-lo:

 sudo apt-get install tesseract-ocr

O pdfocr cria uma camada de texto incorporada.

    
por rafmunozf 18.02.2016 / 23:50
2

Você precisa de alguma ferramenta de OCR. Olhe para o Tesseract

link

    
por Nikita U. 15.03.2013 / 00:26
0
% bl0ck_qu0te%

Carrega o tesseract e outros na instalação. Solução fácil de um passo e pode ser roteirizada. Ele pode usar hocr2pdf para criar um pdf de texto simples, mas não está pronto para o horário nobre ... ainda. O padrão usa o tesseract e cria um pdf "sanduíche": imagem + texto abaixo.

A imagem incorporada pode ser removida com comandos como:

% bl0ck_qu0te%

mas o texto está oculto, por isso parece uma página em branco.

Carregar o PDF em LibreOffice Draw expõe o texto e a imagem pode ser excluída manualmente.

    
por AtesComp 21.06.2018 / 23:43
-1

No seu arquivo pdf, clique com o botão direito e salve cada página como imagem (ou encontre alguma ferramenta que faça todas as páginas automaticamente)

Abra o centro de software do Ubuntu. Pesquisar por tesseract Isto irá encontrar YAGF que você deve instalar. Em YAGF, clique em Arquivo - > Abra Imagem e carregue sua imagem. Em seguida, clique em Arquivo - > Reconhecer.

Eu tive 100% de precisão no meu primeiro teste.

    
por atmelino 21.04.2015 / 21:32
-1

Para a interface gráfica sugerida por @ A.B. no ubuntu 14.04 você deve seguir:

ocr tesseract no ubuntu 14.04

ou de qualquer maneira, adicione à lista de repositórios:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

antes que isso funcione:

sudo apt-get install gimagereader
    
por michel.iamit 18.02.2016 / 21:41

Tags