Não sou especialista em pdf
format, mas no seu arquivo de exemplo, acredito que as partes indesejadas são objetos 17
, 33
e 49
. Para remover esses objetos, usaria pcregrep
da seguinte maneira:
pcregrep -aMv '(17|33|49) 0 obj(.|\n)*?Hello(.|\n)*?endobj' new2.pdf > new3.pdf
Aqui, a opção -a
é necessária para tratar o arquivo binário como texto, -M
para corresponder a multilinha e -v
para inverter a correspondência.
Depois disso, você ainda precisará reparar o novo arquivo conforme descrito na resposta vinculada à sua pergunta ( link ) .