Como posso comparar o conteúdo de arquivos .pdf, excluindo nomes de arquivos da comparação?

2

Eu costumo usar o WinMerge para ver as diferenças entre os arquivos, mas neste caso não ajuda. Os arquivos que estou comparando são conhecidos por terem nomes de arquivos diferentes, o que está criando falsos positivos quando dois arquivos com o mesmo documento dentro têm diferentes nomes de arquivos.

Eu tenho uma pasta cheia de muitos diretórios que representam todos os fornecedores com os quais minha empresa faz negócios, e eles incluem muitos arquivos .pdf de recibos & faturas. É a lista de fornecedores principais. As faturas e amp; os recibos são nomeados de tal forma que os nomes não fazem sentido sem a estrutura de diretórios adjacente para fornecer contexto. Por exemplo, aqui temos "Fornecedores / empresa Foo / barra de produtos / fatura # 3.pdf"

Depois, tenho outra pasta com muitos recibos & faturas nela, que costumavam ser atualizadas separadamente da lista de fornecedores-mestres, e deveriam incluir uma cópia criada manualmente de cada recibo & fatura que foi inserida na entrada apropriada na estrutura de diretório do fornecedor mestre. Estes recibos & as faturas deveriam ter sido renomeadas, então é mais fácil para o contador ler & sabe o que eles se referem. Por exemplo, aqui temos "Impostos / CompanyFoo ProductBar.pdf".

Eu pesquisei arquivos do tipo .pdf na pasta de nível superior da lista de fornecedores principais, para que meus resultados de pesquisa incluam recibos & faturas de todos os fornecedores na estrutura de diretórios. Então copiei esses arquivos .pdf para outra pasta na minha área de trabalho, para poder compará-los. Eu comparei esses arquivos com os arquivos na pasta 'taxes' usando o WinMerge para ver se algum dos arquivos na pasta 'taxes' não existe nos diretórios 'master vendor' e vice-versa.

Mas o WinMerge considera os arquivos como diferentes apenas porque seus nomes de arquivos não correspondem. Eu preciso saber se o conteúdo do arquivo é diferente, apesar do nome do arquivo.

Existem centenas desses arquivos & se houver alguma na pasta 'impostos' que não esteja no diretório 'fornecedor mestre' correspondente, preciso corrigir que & arquive-os corretamente.

Alguém pode recomendar uma ferramenta que pode fazer isso?

    
por cdvonstinkpot 18.03.2012 / 20:29

5 respostas

2

Acho que o comparador de conteúdo do i-net PDF seria útil.

Agora está na versão 2.0, oferecendo uma interface gráfica e opções de preços flexíveis. Ainda há uma versão de avaliação gratuita de 30 dias, na qual você pode verificar todos os aspectos do software.

    
por 18.03.2012 / 20:36
1

Se você tiver algum tipo de ambiente unix disponível (se você estiver no Windows, eu sugiro Cygwin ) você pode facilmente encontrar duplicatas arquivos abaixo do diretório atual com algo parecido com isto:

find . -type f -exec md5sum '{}' '+' | sort | uniq -D -w 32

A saída será md5sum e o nome de todos os arquivos que tiverem pelo menos uma duplicata (o mesmo md5sum). As duplicatas aparecem uma após a outra em ordem alfabética. Troque o . após find pelo caminho que você deseja procurar se não for o diretório atual.

Editar:

Por outro lado, para obter os arquivos que não têm duplicatas, você pode usar

find . -type f -exec md5sum '{}' '+' | sort | uniq -u -w 32

Isso só imprimirá arquivos sem qualquer duplicata abaixo do diretório atual.

    
por 18.03.2012 / 21:03
0
  1. Você pode (realmente) usar o plug-in xdocdiff para WinMerge, se comparar o conteúdo pelos olhos
  2. CompareIt! pode render (so-so) e visualizar em janelas de comparação pdf-files sem plugins adicionais
  3. DiffPDF compara e mostra arquivos comparados ainda melhor (veja a captura de tela na página), crossplatform

Como solução alternativa você pode pensar sobre o armazenamento de cópias em texto simples de cada PDF com o mesmo nome (convertido de, fe, pandoc) e comparar versões de texto apenas por qualquer ferramenta

    
por 19.03.2012 / 03:28
0

Só fiz isso é o que eu usei, funcionou e foi simples!

link

    
por 19.03.2012 / 03:58
0

Experimente o aplicativo "PDF Compare", que compara os metadados do documento pdf e as imagens da página no nível do pixel:

link

    
por 06.03.2018 / 23:07