Convertendo DJVU para PDF

35

Eu quero converter um documento DJVU em um documento PDF, separando e preservando a camada de texto e as imagens e mantendo a estrutura do DJVU. Como posso fazer isso no Ubuntu?

(Eu irei então usar Caliber para converter para ePub / Mobi, então se houvesse um plug-in do Caliber para esse todo processo que seria perfeito para mim!)

Note1: Imprimindo a partir do Evince, exportando do DJview, ou qualquer coisa usando o pacote ddjvu , são não soluções adequadas, pois descartam a camada de texto, salvando apenas imagens.

Nota 2: Usando DJVULibre parece extraia apenas a camada de texto e as imagens não são extraídas . Da mesma forma, copiar o texto "manualmente" perde a estrutura do documento e as imagens.

    
por hayd 31.05.2011 / 16:52

6 respostas

35

Método 1

Basta usar o DJView e exportar como PDF

  1. Ir para o Gerenciador de Pacotes Synaptic
  2. Instale o DJview4
  3. Executar o DJview (Aplicativos - Gráficos - DJView4)
  4. Abra seu documento .djvu
  5. : Menu - Exportar como: PDF

Método 2

Abra o arquivo djvu no evince
Selecione imprimir ---- > imprimir em arquivo
mudar .ps para .pdf e clique em imprimir

Método 3

  1. Ir para o Gerenciador de Pacotes Synaptic
  2. Instalar

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Goto terminal e escreva

     sudo apt-get install libtiff-tools
    
  4. Vá para o diretório onde o arquivo djvu está presente. Clique com o botão direito do mouse. Vá para a opção "Open In Terminal". Clique nisso. Um terminal será aberto.

  5. Nesse terminal, escreva

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

Método 4

Existe também um conversor online DjVu para conversor de PDF

    
por Ashu 16.04.2012 / 17:25
16

Aqui está uma maneira, que exigiria algumas ferramentas não tão comuns:

  1. ocrodjvu
  2. pdfbeads , que possui seus próprios requisitos, que podem ser encontrados pelo Google

Podemos usar o comando djvu2hocr (de ocrodjvu package) para extrair a camada de texto oculta do arquivo DjVu (ele não faz nenhum OCR ou similar, apenas extrai a camada de texto com geometria), ou seja:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

A intervenção

sed corrige os nomes das classes na saída hOCR (que é apenas um arquivo HTML simples)

Agora extraímos a página do DjVu para o formato TIFF com:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

para terminarmos com este arquivo na pasta de trabalho:

sample.djvu
pg10.html
pg10.tif

Aqui é onde pdfbeads entra em jogo e nós executamos com simplicidade:

pdfbeads -o pg10.pdf

então este programa bacana cuida de tudo que está dentro dessa pasta (arquivos HTML e TIFF com o mesmo nome base) e produz arquivos PDF de saída com alguns subprodutos:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

que é idêntico ao arquivo DjVu de entrada e possui uma camada de texto dentro:

Resumodoscomentários:

LongoscomentáriosabaixodiscutemrepresentandoimagensmenoresdapáginadodocumentoDjVucomoobjetosseparados,oquenãoéfacilmentepossívelporqueapáginadodocumentoDjVuéapenasumaúnicaimagemcomcamadadetextoopcional,sem"informações" sobre imagens menores como objetos separados. Se o documento DjVu tiver imagens coloridas, elas geralmente serão colocadas na camada de fundo; Nesse caso, o usuário pode aproveitar as ferramentas como ddjvu (extrair apenas a camada de plano de fundo) e imagemagick (corte automático) para gerar apenas imagens em vez de toda a tela, mas não pode ser automatizado para criar saída PDF

Outra abordagem mais simples, porém mais lenta, é o uso de ferramentas regulares de GUI do OCR. gscan2pdf (> 1.0) é sugerido como possível candidato para o Linux PC

    
por zetah 16.04.2012 / 18:28
3

Usando DJVULibre , pode-se extrair a camada de texto através do comando terminal :

djvutxt myfile.djvu > myfile-ocr.txt ou djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(ambos fazem a mesma coisa e foram encontrados aqui )

A formatação requer algum esforço (como muitos símbolos não são convertidos corretamente) e as imagens não são recuperadas .

    
por hayd 06.06.2011 / 15:38
2

djvu2pdf , mas ele se baseia no ghostscript, por isso pode ser outra opção de impressão. Eu ainda sugiro que você dê uma olhada, caso seja mais inteligente do que eu estou dando crédito.

Não está nos repositórios, mas você pode fazer o download de um deb no site dos criadores: link

** Insira um aviso obrigatório sobre como baixar / instalar coisas de fora dos repositórios aqui **

    
por Oli 31.05.2011 / 17:17
0

A maneira mais fácil: use o gscan2pdf para importar o djvu, depois faça o OCR com o tesseract e, finalmente, salve-o como um pdf. O texto do OCR no pdf pode ser um pouco diferente do djvu original, e a conversão pode demorar um pouco, mas esse método é óbvio e funciona.

    
por Fazul 12.04.2015 / 23:35
-1

link - Usando este site você pode converter djvu para pdf.

    
por Curious Apprentice 17.04.2012 / 13:05