No Ubuntu 16.04, pdfimages -all
produz arquivos de imagem cuja soma de uso de armazenamento é maior que os arquivos PDF dos quais eles vieram.
Existe alguma explicação para isso? Como posso extrair arquivos de imagem que não são maiores que o tamanho que estão usando no .pdf sem compensar a qualidade da imagem?
Nota: Eu tentei uma abordagem que usa o comando pdftohtml
( Extraindo imagens incorporadas de um PDF ) mas os arquivos não parecem permitir-me por causa de algum tipo de permissão relacionada à extração de texto (recebo o erro: Permission Error: Copying of text from this document is not allowed.
).