Eu tenho um enorme documento em PDF (várias centenas de páginas) que provavelmente foi produzido a partir de uma apresentação em PowerPoint.
Ele contém uma página por etapa de apresentação, portanto, se em um slide do PowerPoint houver algum texto ou uma imagem que aparece posteriormente com uma animação, haverá duas páginas no PDF: uma com apenas o conteúdo inicial do slide e um com o objeto animado adicionado.
Eu não tenho acesso à apresentação original, apenas o PDF.
Agora existe uma maneira (script, aplicativo, ...) de remover automaticamente todas as páginas redundantes e manter apenas a última página com todas as informações de cada conjunto de páginas por slide original, descartando as páginas incompletas com as etapas de animação?
O algoritmo de verificação seria realmente bastante simples: para cada página, verifique se a página a seguir contém pelo menos todas as informações (texto, imagens, objetos) da página atual ou mais, e em caso afirmativo, remova a página atual. / p>
Infelizmente eu não tenho ideia se ou como é possível comparar páginas de documentos PDF e descobrir se os elementos de um são um subconjunto do outro ou não.
Você pode me dar alguma solução que me ajude a arrumar meu enorme documento PDF e remover as etapas de animação para imprimi-lo?
Eu realmente não quero um aplicativo de editor de PDF no qual eu tenha que verificar e remover todas as páginas manualmente de qualquer maneira, eu já tenho link para isso. O que eu espero é uma maneira de automatizar o processo.