Remover páginas com conteúdo redundante do documento PDF

5

Eu tenho um enorme documento em PDF (várias centenas de páginas) que provavelmente foi produzido a partir de uma apresentação em PowerPoint.

Ele contém uma página por etapa de apresentação, portanto, se em um slide do PowerPoint houver algum texto ou uma imagem que aparece posteriormente com uma animação, haverá duas páginas no PDF: uma com apenas o conteúdo inicial do slide e um com o objeto animado adicionado.

Eu não tenho acesso à apresentação original, apenas o PDF.

Agora existe uma maneira (script, aplicativo, ...) de remover automaticamente todas as páginas redundantes e manter apenas a última página com todas as informações de cada conjunto de páginas por slide original, descartando as páginas incompletas com as etapas de animação?

O algoritmo de verificação seria realmente bastante simples: para cada página, verifique se a página a seguir contém pelo menos todas as informações (texto, imagens, objetos) da página atual ou mais, e em caso afirmativo, remova a página atual. / p> Infelizmente eu não tenho ideia se ou como é possível comparar páginas de documentos PDF e descobrir se os elementos de um são um subconjunto do outro ou não.

Você pode me dar alguma solução que me ajude a arrumar meu enorme documento PDF e remover as etapas de animação para imprimi-lo?

Eu realmente não quero um aplicativo de editor de PDF no qual eu tenha que verificar e remover todas as páginas manualmente de qualquer maneira, eu já tenho link para isso. O que eu espero é uma maneira de automatizar o processo.

    
por Byte Commander 21.02.2017 / 23:14

2 respostas

2

Você consultou o pdfbox ? Você pode invocar seus diversos recursos na linha de comando . Você pode extrair cada página como texto, usar diff para ver se cada página sucessiva tem principalmente adições ao anterior, manter o controle das páginas interessantes e usar o pdfbox novamente para extrair apenas essas páginas.

Parto da sua avaliação de que você não precisa de instruções detalhadas sobre como realizar tudo isso:)

    
por JayEye 22.02.2017 / 01:31
0

Se um aplicativo de desktop em vez de uma ferramenta de linha de comando for aceitável, você pode experimentar o módulo Combinar e Reordenar do PDFsam Visual (é grátis e totalmente funcional por 14 dias). Ele mostra miniaturas de páginas, você pode rolar todas as centenas de páginas e remover as que deseja descartar. É um pouco de trabalho manual, mas duvido que você encontre uma ferramenta que faça automaticamente o que você pediu.

Você falou sobre um enorme documento PDF, então o PDFsam Visual pode falhar com as configurações padrão, nesse caso escreva-nos e podemos tentar uma configuração diferente.

Disclaimer: Eu sou um dos autores.

    
por Andrea Vacondio 22.02.2017 / 20:06

Tags