Você pode usar fdupes para alcançá-lo. O FDUPES é um programa para identificar ou excluir arquivos duplicados que residem em diretórios especificados.
Como parte de um exercício para ajudar a reduzir a duplicação de arquivos, o gerenciamento gostaria de obter um relatório de todos os arquivos binários duplicados, incluindo imagens que parecem exceder 100.000 ou mais e considerando o tamanho deles, ele tem um impacto cópia de segurança. Existe uma maneira de localizar arquivos duplicados, gerar um relatório e, em seguida, executar um processo para excluí-los ou arquivá-los. Idealmente, os aplicativos devem funcionar com o Windows ou o Linux.
Você pode usar fdupes para alcançá-lo. O FDUPES é um programa para identificar ou excluir arquivos duplicados que residem em diretórios especificados.
Eu fiz isso no linux (para minha música) fazendo um md5sum em todos os arquivos, depois classificando e contando o número de strings MD5 exclusivas e onde havia mais de 1 combinando com o arquivo associado ao MD5 e imprimi-lo. Devo dizer que acho que a resposta do FDUPES acima é provavelmente melhor, mas minha solução usa apenas o que está disponível em uma instalação do Linux.
Tags deduplication