Dois arquivos PDF, idênticos, exceto possivelmente para páginas de capa diferentes - como remover duplicatas?

1

Eu tenho um monte de arquivos PDF, que são artigos baixados de vários sites da Revista. O problema é que alguns desses arquivos PDF são duplicados um do outro. No entanto, se eu executar um localizador de arquivo duplicado básico, eles não serão exibidos, pois os diários têm o hábito (um tanto irritante) de colocar uma folha de rosto no PDF antes do artigo real. Em outras palavras, se eu tiver duas cópias do artigo "X" pelo autor Y, uma baixada do site A e do outro site B, elas não são duplicatas exatas porque uma tem uma página de rosto de A e a outra tem uma capa (diferente) página de B. Então, minha pergunta é:

É possível verificar se dois arquivos PDF são duplicados, ignorando a primeira página ?

Claro, isso não resolve todos os meus problemas, já que alguns sites de revistas não colocam uma página de rosto! Então, a melhor pergunta possível seria:

É possível verificar se dois arquivos PDF são duplicados, em que um (ou ambos) pode ter uma página de capa ?

    
por Steve D 13.04.2011 / 02:43

3 respostas

1

De acordo com a especificação do PDF , pode haver alguns coisas para ajudá-lo.

Primeiro de tudo, há o ID, um identificador único que não deve ser alterado após a criação inicial.

A partir da especificação do PDF acima, Seção 14.4:

File identifiers shall be defined by the optional ID entry in a PDF file’s trailer dictionary (see 7.5.5, “File Trailer” ). The ID entry is optional but should be used. The value of th is entry shall be an array of two byte strings. The first byte string shall be a permanent identifier based on the contents of the file at the time it was originally created and shall not change when the file is increm entally updated

Em segundo lugar, você pode dar uma olhada no 7.5.6 Figura 3. De acordo com esse Figur você deve ter um corpo original.

Para a primeira opção, há uma função poppler para extrair os IDs (você está interessado no ID permanente) link , no entanto, eu não sei como você pode remover o corpo original para comparar esses hashes.

    
por 03.12.2014 / 01:24
1

DiffPDF pode comparar visualmente PDFs (eu não tentei eu mesmo), também disponível como um aplicativo portátil .

Mesmo que você tenha removido a página de rosto de todos os artigos com algo como PDFTK , Eu duvido muito que os PDFs sejam os mesmos em uma comparação binária.

Talvez outra maneira seria renomear cada arquivo para algo único nos artigos, talvez um número de artigo ou uma data incluindo o horário? Então você poderia fazer uma comparação de nomes.

    
por 13.04.2011 / 03:10
-1

O único software que acho útil nesse tipo de problema é o Devonthink (suponho que você esteja usando o Mac). Mas você precisa remover a primeira página de uma variante. Você pode filtrar facilmente aqueles com a capa inserindo uma frase única na pesquisa do Finder. Marque-os ou agrupe-os e execute um script para excluir a primeira página. Quando você indexa todos eles, o Devonthink selecionará as duplicatas. Outros localizadores duplicados, como Gêmeos, Dupe Guru (é melhor que Gêmeos, a propósito), e outros confiam em alguns critérios simples para comparação. Eles não comparam o conteúdo. Devonthink compara o conteúdo. E é 100% preciso, até onde eu sei.

    
por 28.09.2016 / 23:09