Convertendo DJVU para PDF

Question

Convertendo DJVU para PDF

#1 resposta do Ashu (35 votos)
#2 resposta do zetah (16 votos)
#3 resposta do hayd (3 votos)
#4 resposta do Oli (2 votos)
#5 resposta do Fazul (0 votos)
#6 resposta do Curious Apprentice (-1 votos)

35

Eu quero converter um documento DJVU em um documento PDF, separando e preservando a camada de texto e as imagens e mantendo a estrutura do DJVU. Como posso fazer isso no Ubuntu?

(Eu irei então usar Caliber para converter para ePub / Mobi, então se houvesse um plug-in do Caliber para esse todo processo que seria perfeito para mim!)

Note1: Imprimindo a partir do Evince, exportando do DJview, ou qualquer coisa usando o pacote ddjvu , são não soluções adequadas, pois descartam a camada de texto, salvando apenas imagens.

Nota 2: Usando DJVULibre parece extraia apenas a camada de texto e as imagens não são extraídas . Da mesma forma, copiar o texto "manualmente" perde a estrutura do documento e as imagens.

pdf ebooks convert djvu

por hayd 31.05.2011 / 14:52

6 respostas

Tags pdf ebooks convert djvu

Como posso ctrl-alt-f # para chegar a um TTY em uma sessão do QEMU? Como eu posso digitar caracteres ASCII como Alt + numpad no Windows?

score 35 · Answer 1

Método 1

Basta usar o DJView e exportar como PDF

Ir para o Gerenciador de Pacotes Synaptic
Instale o DJview4
Executar o DJview (Aplicativos - Gráficos - DJView4)
Abra seu documento .djvu
: Menu - Exportar como: PDF

Método 2

Abra o arquivo djvu no evince
Selecione imprimir ---- > imprimir em arquivo
mudar .ps para .pdf e clique em imprimir

Método 3

Ir para o Gerenciador de Pacotes Synaptic
Instalar

djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3
Goto terminal e escreva
```
 sudo apt-get install libtiff-tools
```
Vá para o diretório onde o arquivo djvu está presente. Clique com o botão direito do mouse. Vá para a opção "Open In Terminal". Clique nisso. Um terminal será aberto.

Nesse terminal, escreva

ddjvu -format=tiff file_name.djvu file_name.tiff
tiff2pdf -j -o file_name.pdf file_name.tiff

Método 4

Existe também um conversor online DjVu para conversor de PDF

score 16 · Answer 2

Aqui está uma maneira, que exigiria algumas ferramentas não tão comuns:

ocrodjvu
pdfbeads , que possui seus próprios requisitos, que podem ser encontrados pelo Google

Podemos usar o comando djvu2hocr (de ocrodjvu package) para extrair a camada de texto oculta do arquivo DjVu (ele não faz nenhum OCR ou similar, apenas extrai a camada de texto com geometria), ou seja:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

A intervenção

sed corrige os nomes das classes na saída hOCR (que é apenas um arquivo HTML simples)

Agora extraímos a página do DjVu para o formato TIFF com:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

para terminarmos com este arquivo na pasta de trabalho:

sample.djvu
pg10.html
pg10.tif

Aqui é onde pdfbeads entra em jogo e nós executamos com simplicidade:

pdfbeads -o pg10.pdf

então este programa bacana cuida de tudo que está dentro dessa pasta (arquivos HTML e TIFF com o mesmo nome base) e produz arquivos PDF de saída com alguns subprodutos:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

que é idêntico ao arquivo DjVu de entrada e possui uma camada de texto dentro:

Resumodoscomentários:

LongoscomentáriosabaixodiscutemrepresentandoimagensmenoresdapáginadodocumentoDjVucomoobjetosseparados,oquenãoéfacilmentepossívelporqueapáginadodocumentoDjVuéapenasumaúnicaimagemcomcamadadetextoopcional,sem"informações" sobre imagens menores como objetos separados. Se o documento DjVu tiver imagens coloridas, elas geralmente serão colocadas na camada de fundo; Nesse caso, o usuário pode aproveitar as ferramentas como ddjvu (extrair apenas a camada de plano de fundo) e imagemagick (corte automático) para gerar apenas imagens em vez de toda a tela, mas não pode ser automatizado para criar saída PDF

Outra abordagem mais simples, porém mais lenta, é o uso de ferramentas regulares de GUI do OCR. gscan2pdf (> 1.0) é sugerido como possível candidato para o Linux PC

score 3 · Answer 3

Usando DJVULibre , pode-se extrair a camada de texto através do comando terminal :

djvutxt myfile.djvu > myfile-ocr.txt ou djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(ambos fazem a mesma coisa e foram encontrados aqui )

A formatação requer algum esforço (como muitos símbolos não são convertidos corretamente) e as imagens não são recuperadas .

score 2 · Answer 4

Há djvu2pdf , mas ele se baseia no ghostscript, por isso pode ser outra opção de impressão. Eu ainda sugiro que você dê uma olhada, caso seja mais inteligente do que eu estou dando crédito.

Não está nos repositórios, mas você pode fazer o download de um deb no site dos criadores: link

** Insira um aviso obrigatório sobre como baixar / instalar coisas de fora dos repositórios aqui **

score 0 · Answer 5

A maneira mais fácil: use o gscan2pdf para importar o djvu, depois faça o OCR com o tesseract e, finalmente, salve-o como um pdf. O texto do OCR no pdf pode ser um pouco diferente do djvu original, e a conversão pode demorar um pouco, mas esse método é óbvio e funciona.

score -1 · Answer 6

-1

link - Usando este site você pode converter djvu para pdf.

por Curious Apprentice 17.04.2012 / 11:05