Localizador de Arquivos Duplicados Fuzzy?

3

Existe algum aplicativo GUI (seja para Windows ou Linux) que implemente algoritmos de hashing difusos como ssdeep ou sdhash para encontrar arquivos quase duplicados (principalmente arquivos de texto)?

    
por Alix Axel 18.10.2012 / 10:45

3 respostas

2

Você pode tentar o Near Duplicates Finder . Não é exatamente o que você está pedindo, mas é baseado em Java, então ele funcionará em qualquer plataforma onde o Java funcione (incluindo Windows, OS X e Linux). Não possui interface GUI, mas encontrará quase duplicatas para arquivos baseados em texto, como TXT, DOC, HTML, PDF, etc.

Exemplo de uso

Near Duplicates Finder v.0.1.0
Usage: java com.softcorporation.neardup.DuplicatesFinder parameters ...

Parameters format: -parameter [value]
    -start filename[,filename]  directory / file(s) to search for duplicates (mandatory)
    -report filename            report file (by default report goes to ./report.log file)
    -score                      the score to report the duplicate (default is 0.6)
    -onlynew                    find the duplicates only for new documents
    -gram                       number of words in a phrase
    -purge                      clear files list from past runs
    -db                         location of db directory with files list
    -delete criteria            remove duplicates by criteria (old, new, small, large)
    -deletepath pattern         remove only matching pattern files (mandatory for delete)
    -verbose                    display progress information (on standard output)

Example: Find duplicates from text files in directory 'docs' and save report in 'report.log'
    java com.softcorporation.neardup.DuplicatesFinder -start docs -report report.log

For more information visit web site: http://www.softcorporation.com/products/neardup
    
por 07.04.2013 / 12:00
0

Encontrei SSDeepFE para o ssdeep.

Além disso, o sdhash parece ter uma GUI baseada na web, mas ainda não é muito útil.

    
por 18.10.2012 / 11:34
0

Acho que esse é o localizador de arquivos duplicados que você está procurando. Há modo de similaridade que funciona muito bem em arquivos de código-fonte também (arquivos de texto), mas está disponível na versão PRO comercial.

    
por 23.05.2013 / 01:35