Como identificar o formato das imagens em um pdf?

6

Eu recebi vários arquivos em pdf com imagens neles. As imagens originais foram perdidas, então eu preciso extraí-las. Eu tenho o Adobe Acrobat Pro, então eu os extraí usando Advanced > Document Processing > Export All Images (existem quatro opções: jpeg, png, tiff, jpeg2000). Mas, eu gostaria de extraí-los no formato original, e isso aparentemente não é jpeg: Eu também testei pdfimages.exe do xpdf como delineado aqui , e isso deu arquivos .ppm, não jpeg.

Então eu tentei identificar o ImageMagick, o que me deu foi isso:

identify images-000.ppm
images-000.ppm PPM 870x1181 870x1181+0+0 8-bit sRGB 3.082MB 0.000u 0:00.000

Isso indica que era um .bmp incorporado? Como dizer? Eu realmente esperaria uma função no Acrobat para identificar o formato das imagens, mas não consegui encontrá-lo.

Então, qual é a melhor maneira de identificar o formato de imagem das imagens em um pdf?

(Eu prefiro a extração via Acrobat por causa da funcionalidade do lote).

    
por arjan 21.11.2012 / 15:15

2 respostas

4

AFAIK, os XObjects da Imagem incorporados em PDFs não armazenam nenhuma informação sobre o formato original da imagem. No máximo, se for um JPEG incorporado, ele pode ser extraído como está, mas para todos os outros casos, você terá uma imagem PxM que precisará converter.

    
por 21.11.2012 / 15:52
2

A imagem está no formato de arquivo portátil pixmap. (Veja Wikipedia: formato Netpbm para detalhes).

O pode usar as ferramentas netbmp para convertê-las em um bmp mais moderno.
A sintaxe para isso é: ppmtobmp images-000.ppm > images-000.bmp .

link é a página inicial para netpbm.

Existem várias imagens em um documento? Ou podemos apenas procurar o PDF para a linha com identify images-000.ppm , cortar o arquivo desse local e alimentá-lo para ppmtobmp? Não deve ser difícil automatizar isso.

    
por 21.11.2012 / 15:34