OCR que adiciona texto gerado aos arquivos pdf e djvu originais?

Question

OCR que adiciona texto gerado aos arquivos pdf e djvu originais?

#1 resposta do (2 votos)
#2 resposta do (2 votos)

2

Meu sistema operacional é o Ubuntu.

Descobri que existem alguns aplicativos que podem converter o arquivo pdf ou djvu em OCR, gerando outro arquivo de texto.

Mas eu queria saber como adicionar o texto oculto aos arquivos pdf ou djvu originais, para torná-lo selecionável por texto nos arquivos pdf ou djvu originais, como o Adobe Acrobat faz no Windows?

pdf ocr djvu ubuntu

por Tim 07.05.2011 / 19:59

2 respostas

Tags pdf ocr djvu ubuntu

Não é possível atualizar para o Fedora 27 devido ao compositor? Excel: fazendo um gráfico com anos não uniformemente espaçados no eixo x

score 2 · Answer 1

Para PDF, há pdfsandwich

pdfsandwich generates "sandwich" OCR pdf files, i.e. pdf files which contain only images (no text) will be processed by optical character recognition (OCR) and the text will be added to each page invisibly "behind" the images.

É um processo de 2 etapas:

Adicione o texto do OCR a um novo PDF com (aqui eu uso o mecanismo de OCR do tesseract com o idioma francês):

pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf
Em seguida, converta o PDF / OCR em DjVu com:

pdf2djvu -o ./ocr.djvu ./ocr.pdf

score 2 · Answer 2

Eu iniciei um projeto Bash no github para ajudar a converter de PDF para PDF + OCR e DjvU + OCR . É baseado na resposta de @ meda-beda e em algumas edições que eu adicionei.

É um invólucro de pdfSandwich e pdf2djvu.

Ele foi desenvolvido e testado no Ubuntu-12.10, eu acho que ainda há trabalho a fazer na opção de ajustar o arquivo resultante (às vezes maior que o original).