Remover texto do pdf

7

Eu tenho um arquivo em pdf com algum texto em cada página que eu gostaria de remover.

O texto é correspondido por um regex e acho que vem em um bloco do pdf.

Eu usei o pdfedit para selecionar e excluir o texto com a GUI, mas estava procurando uma maneira de fazer isso no terminal.

    
por DrYap 31.01.2014 / 22:32

2 respostas

6

Você pode tentar pdftk , mas funciona apenas uma fração do tempo, devido a (eu acredito) um problema com fontes.

Funciona assim: primeiro você precisa descompactar o arquivo pdf,

  pdftk myfile.pdf output unc.pdf uncompress

depois modifique-o com

  sed 's/oldstring/newstring/g' < unc.pdf > mod_unc.pdf

por último você recompacta com

 pdftk mod_unc.pdf output myfile_modified.pdf compress

Eu tive apenas um sucesso moderado com este comando, no sentido de que às vezes funciona, às vezes não, de acordo com o capricho.

    
por 01.02.2014 / 14:05
-3

você pode usar qualquer editora de PDF. O Nitro PDF é uma boa ferramenta para editar PDF. Existem também muitas ferramentas gratuitas. Você pode adicionar ou remover texto usando isso.

link

PDFEdit é uma boa opção para o Linux. leia este link para saber como instalar. cyberciti.biz/tips/open-source-linux-pdf-writer.html

    
por 13.02.2014 / 14:18