Como converter um DjVu para PDF mantendo a deduplicação de forma

2

Uma das (muitas) vantagens de compactar uma página digitalizada com o DjVu é a desduplicação de caracteres:

…bitonal image compression that takes advantage of repetitions of nearly identical shapes on the page (such as characters) to efficiently compress text images.

Infelizmente, o recurso de exportação de PDF do DjView (e sua contraparte de linha de comando ddvju ) joga fora essa vantagem e renderiza uma única imagem para cada página. O resultado é que o PDF geralmente é 2 vezes maior que o arquivo DjVu.

Como o formato PDF é mais do que capaz de armazenar uma imagem uma vez e exibi-la muitas vezes em uma página, fiquei me perguntando se existem ferramentas que geram um PDF otimizado, preservando a estrutura compactada do DjVu.

    
por Tobia 17.12.2015 / 17:10

2 respostas

0

Eu não conheço nenhuma maneira de usar o linux, mas usando o Windows, o programa DjVuToy fará exatamente o que você quer. Ele mantém as camadas separadas e as converte individualmente de DjVu para um equivalente em PDF. O tamanho do arquivo permanecerá o mesmo, e o documento agora poderá ser visualizado usando a maioria dos leitores de PDF.

    
por 14.01.2018 / 00:28
0

Se eu entendi o seu problema corretamente, e é um pouco vago, é que você tem um número de arquivos DjVu que você gostaria de converter em PDF. O DjVu que você deseja converter foi gerado a partir de um scanner e, portanto, o formato de dados subjacente é um bitmap / raster / picture formato de tipo de gráficos.

Você está assumindo incorretamente os recursos do formato PDF ( Especificação da Adobe ( Artigo da Wikipédia ). O formato PDF é basicamente uma linguagem de marcação simples que descreve como formatar e colocar texto e imagens em uma página, fazer desenhos vetoriais básicos e também ter a capacidade de ter dados de imagem codificados nela. A linguagem de marcação de texto e descrição da página é geralmente codificada com os algoritmos de compressão LZW ou Flate. Os dados da imagem são armazenados como JPEG (Página 39), TIFF (Página 71) ou GIF (Página 842).

O formato PDF não usa nenhuma nova tecnologia como o formato DjVu ( DjVu Spec ) ( Artigo da Wikipédia . Basicamente, o DjVu escaneia um documento inteiro e procura coisas que ele possa combinar juntos, e então deixa uma referência para onde cada objeto aparece. O formato DjVu é muito mais inteligente do que o PDF a esse respeito. De certo modo, o formato DjVu é mais parecido com um JPEG do que com PDF quando você observa como o algoritmo opera em todo um documento de várias páginas.

Um documento PDF criado por um scanner é apenas uma série de páginas definidas para um determinado tamanho, com um JPEG colado em cada página. Você pode executar os Dados PDF por meio de um processo de OCR ( Reconhecimento Ótico de Caracteres ) e recriar o documento em um formato de texto, e Isso reduziria enormemente o tamanho do documento PDF. O documento PDF não possui OCR incorporado no formato, mas alguns leitores, como o Adobe Reader, possuem OCR integrado que permite pesquisar em um documento PDF do tipo JPEG.

Eu também entendo que o Adobe Acrobat tem capacidade de processamento de OCR. Existem outros programas, o OmniPage vem à mente, assim como lá Há vários sistemas de OCR de código aberto disponíveis por aí.

    
por 31.12.2015 / 00:43