Localiza arquivos quase duplicados em uma pasta

6

Eu tenho uma pasta cheia de arquivos, com vários arquivos duplicados. Infelizmente, em vários casos, uma versão é uma versão atualizada de outra, portanto, uma correspondência direta de byte não localiza a duplicação. (Eu olhei para esta questão , mas todos os que eu vi da lista parecem fazer somente comparação de contagem de bytes ...)

Existe algum aplicativo de dedup (Windows) que possa fazer uma correspondência de similaridade e apontar o usuário para os arquivos em questão para exame? Freeware é bom, teste gratuito é aceitável. Mesmo apenas uma lista de semelhanças para me dizer onde procurar provavelmente funcionaria.

EDIT: Desculpe, eu deveria ter mencionado; estes são arquivos baseados em texto, principalmente DOC, PPT e PDF. O mais provável é que o conteúdo tenha mudado, mas a formatação também pode ser diferente. Mesmo apenas pegando em alterações de texto provavelmente seria útil embora ...

    
por Margaret 22.09.2010 / 07:04

3 respostas

3

Você pode experimentar um detector de plágio . Plágio e atualizações não apresentam exatamente o mesmo tipo de semelhanças, então pode ou não dar resultados úteis, mas há muito por onde escolher, então, se não ajudar, outro pode. Eu não tenho um programa específico para recomendar; você poderia tentar perguntar a qualquer professor ou professor que você conheça (preferencialmente fora da ciência da computação, pois é mais provável que eles estejam familiarizados com o plágio de programação do que com o plágio de linguagem natural).

    
por 24.09.2010 / 23:01
0

Eu não sei de nenhum aplicativo, mas se a maior parte do conteúdo for a mesma entre as versões, você poderá fazer uma Pesquisa do Windows no diretório com a opção "palavra ou frase no arquivo". Sua consulta seria uma frase específica que não altera (ou pelo menos não acha que você muda) muito entre as versões e é bastante exclusiva desse documento / conjunto de documentos específico. Esse tipo de pesquisa deve funcionar para PDF, DOC e PPT, apesar do fato de não serem arquivos de texto simples. Isso não vai te dar a saída exata que você está procurando, mas se você escolher bem sua frase de busca e seu conteúdo entre as versões não variar muito, deve funcionar muito bem.

    
por 23.09.2010 / 22:04
0

Procure por ssdeep e sdhash.

Eu nunca tentei sdhash, mas eu li que é melhor que o ssdeep. De qualquer forma, ambos fornecem uma CLI que permite o cálculo de hashes difusos e suas respectivas semelhanças.

Deve funcionar razoavelmente bem para o seu objetivo.

PS: Desculpe pela brevidade e falta de links, mas sou um caixa eletrônico móvel.

    
por 19.10.2012 / 11:05