Como remover imagens de um arquivo PDF

8

Eu tenho um documento PDF bastante grande (~ 100MB) com muitas imagens (como ilustrações e imagens de fundo), e gostaria de ter uma cópia desse pdf sem imagens, mas não consigo encontrar como fazer isso.

Não estou falando de convertê-lo apenas em texto, gostaria de manter os parágrafos / tabelas / colunas múltiplas como estão.

Estou confortável com a linha de comando e tenho vários computadores com diferentes distribuições que posso usar.

    
por Ornux 06.06.2014 / 15:47

4 respostas

10
cpdf -draft original.pdf -o version_without_images.pdf

Não está nos repositórios, mas você pode encontrar um download ( pré-compilado ou fonte ) no site deles .

Manual :

  

15.1 Minuta de documentos

     

A opção -draft remove imagens bitmap (fotográficas) de um arquivo, para que possa ser impresso com menos tinta. Opcionalmente, a opção -boxes pode ser adicionada, preenchendo os espaços deixados em branco com uma caixa cruzada denotando onde a imagem estava. Isso não é garantido para ser totalmente visível em todos os casos (o bitmap pode ter sido parcialmente coberto por objetos de vetor ou recortado no original). Por exemplo:

 cpdf -draft -boxes in.pdf -o out.pdf
    
por Rinzwind 06.06.2014 / 16:38
9

Os últimos lançamentos do Ghostscript podem fazer isso também. Basta adicionar o parâmetro -dFILTERIMAGE ao seu comando.

Existem ainda mais dois novos parâmetros que podem ser adicionados para remover seletivamente os tipos de conteúdo "vetor" e "texto" :

  1. -dFILTERIMAGE : produz uma saída em que todas as imagens raster são removidas.

  2. -dFILTERTEXT : produz uma saída em que todos os elementos de texto são removidos.

  3. -dFILTERVECTOR : produz uma saída em que todos os desenhos vetoriais são removidos.

Quaisquer duas dessas opções podem ser combinadas. (Se você combinar todos os 3, você obterá todas as páginas ficando em branco ...)

Exemplos

Aqui está a captura de tela de uma página de exemplo em PDF que contém todos os três tipos de conteúdo mencionados acima:

Captura de tela da página PDF original contendo elementos "image", "vector" e "text".
Captura de tela da página PDF original contendo "image", "vector" e " texto "elementos"> </a> </p>


<p> A execução dos 6 comandos a seguir criará todas as 6 variações possíveis do conteúdo restante: </p>

 <pre>
 gs -o noIMG.pdf   -sDEVICE=pdfwrite -dFILTERIMAGE                input.pdf
 gs -o noTXT.pdf   -sDEVICE=pdfwrite -dFILTERTEXT                 input.pdf
 gs -o noVCT.pdf   -sDEVICE=pdfwrite -dFILTERVECTOR               input.pdf

 gs -o onlyIMG.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERTEXT  input.pdf
 gs -o onlyTXT.pdf -sDEVICE=pdfwrite -dFILTERVECTOR -dFILTERIMAGE input.pdf
 gs -o onlyVCT.pdf -sDEVICE=pdfwrite -dFILTERIMAGE  -dFILTERTEXT  input.pdf
</pre> 

<p> A imagem a seguir ilustra os resultados: </p>


<p> <sub> <strong> Linha superior, </strong> da esquerda: todo o "texto" foi removido; todas as "imagens" removidas; todos os "vetores" foram removidos. <strong> Linha inferior, </strong> da esquerda: apenas "texto" mantido; apenas "imagens" mantidas; apenas "vetores" mantidos. </sub> <br> <a href="https://i.stack.imgur.com/Aerzl.png"> <img src="https: //i.stack.imgur. com / Aerzl.png "alt =

por Kurt Pfeifle 16.06.2016 / 18:42
1

Enquanto a resposta do @Rinzwind é a Coisa certa , gostaria de comentar a solução "intermediária". Normalmente, você pode reduzir bastante o tamanho das imagens usando ghostscript com

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen \
   -dNOPAUSE -dQUIET -dBATCH -sOutputFile=small.pdf original.pdf

... é realmente muito útil para revisão. A página de manual para escrever PDF é aqui .

    
por Rmano 06.06.2014 / 21:03
0

Você pode usar o editor pdf mestre, excluir essas imagens e salvar como um novo arquivo pdf. Você pode baixá-lo do centro de software do Ubuntu.

    
por Sudheer 06.06.2014 / 15:57