0.
Aqui está um PNG feito a partir do arquivo PDF de amostra de uma página:
1.
WhenviewingitinanyPDFviewer,thepage'swidthisgreaterthantheheight.
Issoéexatamentecomodeveriaser.
2.
[...]itseemslikeallthePDFapplicationsIhavetriedmistakethewidthastheheightandtheheightasthewidthforthisPDFfile.
Comovocêdisse,sópareceassim.
3.
IsthePDFfilebroken?
Não,nãoé.
4.
Vocêignorouumainformaçãoqueseuprimeirocomando(pdfinfo
)deuavocê:
Pagerot:90
Issosignificaqueocódigo-fontedoPDFdentrodoarquivoPDFdizaoespectadorquepegueestapágina"É realmente maior que a largura" e apresente uma rotação de 90 graus.
Assim, "visualizando-o em qualquer visualizador de PDF, a largura da página é maior que a altura" . Como é suposto ser. Veja meu Não. 1 acima. E meu Não. 2 acima.
5.
Você pode usar pdfimages
para extrair todas as imagens e, em seguida, convert
do ImageMagick para converter essas que saem como PNM ou PBM para JPEG:
pdfimages -j test.pdf test-
for i in *.pbm ; do \
convert $i ${i/.pbm/.jpg} ; \
done
Isso resulta em oito imagens diferentes, aquelas com numeração de 0 a 7 no comando pdfimages -list
da sua pergunta ( '2'. ).
Aqui estão estas imagens. Todos eles são dimensionados para 25% do tamanho original, portanto, não é desperdiçado muito espaço. Todos eles são exibidos em sua orientação "natural", pois são extraídos por pdfimages
. Aqui está o primeiro, número 0
na sua lista:
Esta imagem foi extraída em sua orientação "natural". É claramente mais alto que largo.
Os seguintes pares de imagens são todos dimensionados em 25%. Eles representam imagens do tipo mask
na lista do seu pdfimages
output acima:
O seu digitalizador (com o software incorporado) é mais "inteligente". Ele não faz simplesmente um único TIFF da página e depois o incorpora em um shell de PDF, mas tenta otimizar as diferentes partes, usando imagens 'máscaras' (com canais alfa - aparecendo como preto cores nos JPEGs que criei) para partes que contêm texto.
Felizmente, o software do seu scanner não era "mais" inteligente quando aplicou sua compactação ao texto e usou JPEG2000 em vez de JBIG2. Então você não se apaixona pelo infame " erro de digitalização da Xerox " .