Se eu entendi o seu problema corretamente, e é um pouco vago, é que você tem um número de arquivos DjVu que você gostaria de converter em PDF. O DjVu que você deseja converter foi gerado a partir de um scanner e, portanto, o formato de dados subjacente é um bitmap / raster / picture formato de tipo de gráficos.
Você está assumindo incorretamente os recursos do formato PDF ( Especificação da Adobe ( Artigo da Wikipédia ). O formato PDF é basicamente uma linguagem de marcação simples que descreve como formatar e colocar texto e imagens em uma página, fazer desenhos vetoriais básicos e também ter a capacidade de ter dados de imagem codificados nela. A linguagem de marcação de texto e descrição da página é geralmente codificada com os algoritmos de compressão LZW ou Flate. Os dados da imagem são armazenados como JPEG (Página 39), TIFF (Página 71) ou GIF (Página 842).
O formato PDF não usa nenhuma nova tecnologia como o formato DjVu ( DjVu Spec ) ( Artigo da Wikipédia . Basicamente, o DjVu escaneia um documento inteiro e procura coisas que ele possa combinar juntos, e então deixa uma referência para onde cada objeto aparece. O formato DjVu é muito mais inteligente do que o PDF a esse respeito. De certo modo, o formato DjVu é mais parecido com um JPEG do que com PDF quando você observa como o algoritmo opera em todo um documento de várias páginas.
Um documento PDF criado por um scanner é apenas uma série de páginas definidas para um determinado tamanho, com um JPEG colado em cada página. Você pode executar os Dados PDF por meio de um processo de OCR ( Reconhecimento Ótico de Caracteres ) e recriar o documento em um formato de texto, e Isso reduziria enormemente o tamanho do documento PDF. O documento PDF não possui OCR incorporado no formato, mas alguns leitores, como o Adobe Reader, possuem OCR integrado que permite pesquisar em um documento PDF do tipo JPEG.
Eu também entendo que o Adobe Acrobat tem capacidade de processamento de OCR. Existem outros programas, o OmniPage vem à mente, assim como lá Há vários sistemas de OCR de código aberto disponíveis por aí.