dvju para pdf incluindo camada de texto

1

Tentando converter djvu com camada de texto para pdf com camada de texto. Eu tentei todos os métodos em este post e nenhum deles preserva a camada de texto.

Quais opções eu tenho?

    
por nullUser 23.01.2016 / 00:29

1 resposta

1

Até onde eu sei, você tem duas opções:

  1. Use ocrodjvu e pdfbeads como descrito aqui .

    Os comandos relevantes assumindo que seu arquivo DJVU é chamado sample.djvu e você deseja converter a página 10 em PDF, incluindo a camada de texto:

    djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

    ddjvu -format=tiff -page=10 sample.djvu pg10.tif

    pdfbeads -o pg10.pdf

  2. Use Djview4 para converter o arquivo DJVU em PDF e use PDF-XChange Viewer para executar o OCR. Leva tempo, mas é muito bom (mesmo em documentos de duas colunas).

Em princípio, as duas opções devem funcionar no Mac, Windows e Linux. Para a opção 2. você precisará do Wine no Mac e no Linux.

Eu tentei a opção 1. com uma única página e ela não terminou em menos de 10 minutos em um laptop recente com um processador quad-core e 8 GB de RAM. YMMV.

A opção 2. levou duas horas em um documento de 50 páginas em um computador desktop recente com um processador quad-core e 16 GB de RAM, mas os resultados são impressionantes.

    
por 17.08.2016 / 00:14

Tags