OCR que adiciona texto gerado aos arquivos pdf e djvu originais?

2

Meu sistema operacional é o Ubuntu.

Descobri que existem alguns aplicativos que podem converter o arquivo pdf ou djvu em OCR, gerando outro arquivo de texto.

Mas eu queria saber como adicionar o texto oculto aos arquivos pdf ou djvu originais, para torná-lo selecionável por texto nos arquivos pdf ou djvu originais, como o Adobe Acrobat faz no Windows?

    
por Tim 07.05.2011 / 21:59

2 respostas

2

Para PDF, há pdfsandwich

pdfsandwich generates "sandwich" OCR pdf files, i.e. pdf files which contain only images (no text) will be processed by optical character recognition (OCR) and the text will be added to each page invisibly "behind" the images.

É um processo de 2 etapas:

  1. Adicione o texto do OCR a um novo PDF com (aqui eu uso o mecanismo de OCR do tesseract com o idioma francês):

    pdfsandwich -sloppy_text -tesseract /path/to/tesseractbin -tesso -l fra ./original.pdf -o ./ocr.pdf

  2. Em seguida, converta o PDF / OCR em DjVu com:

    pdf2djvu -o ./ocr.djvu ./ocr.pdf

por 07.08.2011 / 13:10
2

Eu iniciei um projeto Bash no github para ajudar a converter de PDF para PDF + OCR e DjvU + OCR . É baseado na resposta de @ meda-beda e em algumas edições que eu adicionei.

É um invólucro de pdfSandwich e pdf2djvu.

Ele foi desenvolvido e testado no Ubuntu-12.10, eu acho que ainda há trabalho a fazer na opção de ajustar o arquivo resultante (às vezes maior que o original).

    
por 12.02.2013 / 11:18