Como faço para converter um PDF digitalizado em um PDF com texto

Question

Como faço para converter um PDF digitalizado em um PDF com texto

#1 resposta do A.B. (19 votos)
#2 resposta do rafmunozf (6 votos)
#3 resposta do Nikita U. (2 votos)
#4 resposta do AtesComp (0 votos)
#5 resposta do atmelino (-1 votos)
#6 resposta do michel.iamit (-1 votos)

27

Eu digitalizei cerca de 80 páginas em escala de cinza pdf (formato de imagem). O tamanho final do arquivo é de cerca de 70MB, o que é muito grande.

Agora estou procurando um método para converter o arquivo PDF baseado em imagem em escala de cinza em um simples arquivo PDF preto / branco baseado em texto.

Eu fiz muitas tentativas com gs , mas sem sucesso (apenas uma recuperação de alguns por cento). Se algum especialista tem alguma idéia, por favor me avise.

pdf

por Admiral 14.03.2013 / 21:40

5 respostas

Tags pdf

Se o “upgrade” do Windows 10 afetar o GRUB2 e estragar minha inicialização dupla com o Ubuntu, terei que limpar completamente meu computador e começar do zero? [fechadas] Determina quais botões estão no CCSM?

score 19 · Answer 1

gImageReader é um front end simples do GTK + para tesseract-ocr .

sudo apt-get install gimagereader tesseract-ocr

desculpa pelo texto em alemão

score 6 · Answer 2

Você pode tentar o pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Para executar a sintaxe é

 pdfocr -i input.pdf -o output.pdf

em que input.pdf é o nome do arquivo de entrada e output.pdf do arquivo de saída.

Por padrão, ele usa o Tesseract. Para instalá-lo:

 sudo apt-get install tesseract-ocr

O pdfocr cria uma camada de texto incorporada.

score 2 · Answer 3

2

Você precisa de alguma ferramenta de OCR. Olhe para o Tesseract

link

por Nikita U. 14.03.2013 / 23:26

score 0 · Answer 4

% bl0ck_qu0te%

Carrega o tesseract e outros na instalação. Solução fácil de um passo e pode ser roteirizada. Ele pode usar hocr2pdf para criar um pdf de texto simples, mas não está pronto para o horário nobre ... ainda. O padrão usa o tesseract e cria um pdf "sanduíche": imagem + texto abaixo.

A imagem incorporada pode ser removida com comandos como:

% bl0ck_qu0te%

mas o texto está oculto, por isso parece uma página em branco.

Carregar o PDF em LibreOffice Draw expõe o texto e a imagem pode ser excluída manualmente.

score -1 · Answer 5

No seu arquivo pdf, clique com o botão direito e salve cada página como imagem (ou encontre alguma ferramenta que faça todas as páginas automaticamente)

Abra o centro de software do Ubuntu. Pesquisar por tesseract Isto irá encontrar YAGF que você deve instalar. Em YAGF, clique em Arquivo - > Abra Imagem e carregue sua imagem. Em seguida, clique em Arquivo - > Reconhecer.

Eu tive 100% de precisão no meu primeiro teste.

score -1 · Answer 6

Para a interface gráfica sugerida por @ A.B. no ubuntu 14.04 você deve seguir:

ocr tesseract no ubuntu 14.04

ou de qualquer maneira, adicione à lista de repositórios:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

antes que isso funcione:

sudo apt-get install gimagereader