Como extrair texto de um pdf baseado em imagem usando o Cuneiform no terminal

Question

Como extrair texto de um pdf baseado em imagem usando o Cuneiform no terminal

#1 resposta do (2 votos)

0

cuneiform -l eng -f text -o outocr.txt input.pdf

O comando acima, quando executado no terminal, exibe apenas o texto da minha página de título do PDF para o arquivo outocr.txt. O que devo fazer para reconhecer todo o texto no PDF de 120 páginas? Eu estou usando o Fedora Linux 25 (x86_64).

pdf ocr fedora linux

por codezombie 31.01.2017 / 09:27

1 resposta

Tags pdf ocr fedora linux

Como exportar todos os hiperlinks em uma página da Web? Como localizar um computador (Mac) em uma intranet?

score 2 · Answer 1

Esta postagem fornece um exemplo de script para ler muitas páginas individuais e criar um PDF de várias páginas. Cuneiform por si só não cria documentos de várias páginas. Como extrair texto com OCR de um PDF em Linux?