Por que o tamanho de um PDF com imagens incorporadas é tão grande em comparação com as próprias imagens individuais?

1

Eu tenho um PDF onde cada página é uma imagem colorida (é um artbook). Existem 16 páginas. Uma página está completamente em branco.

O PDF em si é de 140 MB. Quando eu extraio cada imagem para o BMP, as imagens ocupam apenas 30 MB. Compressão sem perdas para PNG produziu 13 MB.

Como é possível que o PDF tenha 140 MB quando as imagens são (na pior das hipóteses) 30 MB? Os PDFs estão usando uma maneira extremamente ineficiente de armazenar dados de imagem em que cada pixel ocupa mais de 4 bytes?

Eu gosto de PDF porque muitos aplicativos o suportam sem ter que instalar software / plugins adicionais, mas achei isso muito estranho.

Não tenho certeza se este PDF específico é apenas um caso especial.

    
por That Umbrella Guy 19.01.2014 / 04:50

1 resposta

0

qual software você está usando para "extrair" as imagens do pdf?

Lembre-se que para extrair imagens do pdf em sua resolução nativa, você precisa usar

pdfimages

aqui você pode baixar binários para o Microsoft Windows e Linux

uso:

pdfimages [options] <PDF-file> <image-root>

depois de extrair imagens com a resolução completa, você pode avaliar corretamente o problema que pensa ter

para imagens coloridas, geralmente, o pdf tem apenas uma maneira eficiente de manter a qualidade e diminuir o tamanho do arquivo

o jpeg-2000

Então, você precisa recodificar as imagens extraídas do pdf com pdfimages com um software capaz de converter para jpeg-2000 como:

  • imagemagick
  • graphicsmagick
  • muitos outros

então, você precisa colocar essas imagens codificadas em jpeg-2000 em um pdf, sem recodificar. Isso pode ser feito tanto no Microsoft Windows quanto no Linux (com o Wine) com:

freepic2pdf

por 19.01.2014 / 15:37

Tags