controle de versão de PDFs com anotações

3

Eu tenho muitos arquivos PDF importantes. A única maneira de modificá-las é adicionar / remover anotações. Existe uma maneira eficiente de ter controle de versão para esses arquivos. Eu posso, talvez, usar ferramentas padrão como o SVN / Git. Ouvi dizer que o SVN armazena apenas deltas, mesmo para arquivos binários. No caso do SVN / GIT, os deltas seriam enormes se tudo o que fizesse era alterar as anotações em um arquivo PDF? Eu acho que eles não serão enormes, mas eu não sei como as anotações são armazenadas em arquivos PDF e como os algoritmos delta são inteligentes.

    
por Abhishek Anand 01.09.2014 / 18:43

3 respostas

1

Em um projeto ativo, usamos o git para fazer o controle de distribuição e versão. Alguns dos arquivos são PDF e funcionam muito bem. Como já foi dito, não há como deltas.

Uma possibilidade, no entanto, que pode funcionar com deltas, seria exportar os comentários, que saem como FDF, e depois fazer o controle de versão com esses arquivos de exportação. O FDF pode, se os comentários não forem muito grandes, ser arquivos de texto simples; você teria que executar testes, no entanto.

    
por 02.09.2014 / 19:46
1

Você pode descompactar PDFs com várias ferramentas (qpdf, pdftk, mutool, cpdf). Por exemplo:

pdftk original.pdf output uncompressed.pdf uncompress

Isso deve fornecer o PDF em um formato em que você pode ver e diferenciar anotações como texto simples. O arquivo descompactado geralmente consistirá basicamente de caracteres ASCII, mas ainda pode conter dados binários. Você teria que testar como isso funciona com o software de controle de versão de sua escolha e se ele funciona bem com os dados binários "incorporados".

A questão é o que acontece quando você modifica as anotações (com um editor de GUI, suponho), salva o arquivo e o descompacta. Se você tiver sorte, o arquivo será basicamente o mesmo, exceto para anotações, mas isso não é garantido. Você terá que escolher sabiamente sua combinação de software.

    
por 01.03.2016 / 17:59
0

Não conheço qualquer versão nativa com arquivos PDF (nem minha pesquisa no Google). Arquivos PDF (de acordo com a Wikipédia) são binários. O armazenamento delta só funciona com arquivos de texto (como arquivos de código-fonte e arquivos leia-me).

Eu tenho experiência em usar o SVN e o Git. Eu recomendo o uso do Git, já que ele possui recursos de compactação superiores e é um sistema de controle de versão distribuído. Subversion é um sistema centralizado de controle de versão, o que significa que você precisa de um servidor para executá-lo. Você pode instalar o software do servidor SVN no seu computador, mas provavelmente não vale a pena a sobrecarga. Os sistemas de controle de versão distribuídos funcionam por meio de repositórios locais (isto é, nenhum servidor é necessário).

    
por 01.09.2014 / 19:43