Ferramentas do Linux para encontrar arquivos duplicados?

13

Eu tenho um conjunto grande e crescente de arquivos de texto, que são todos bem pequenos (menos de 100 bytes). Eu quero diferenciar cada par de arquivos possíveis e observe quais são duplicatas. Eu poderia escrever um script Python para fazer isso, mas eu estou querendo saber se existe uma ferramenta de linha de comando Linux existente (ou talvez uma simples combinação de ferramentas) que faria isso?

Atualização (em resposta ao comentário mfinni ): os arquivos estão todos em um único diretório, então todos eles têm nomes de arquivos diferentes. (Mas todos eles têm uma extensão de nome de arquivo em comum, facilitando a seleção de todos eles com um curinga.)

    
por Daryl Spitzer 07.10.2010 / 20:50

3 respostas

22

Existem os fdupes . Mas eu geralmente uso uma combinação de find . -type f -exec md5sum '{}' \; | sort | uniq -d -w 36

    
por 07.10.2010 / 21:03
6

Bem, existe o FSlint - que eu não usei para este caso particular, mas eu deveria ser capaz de lidar com isso: link

    
por 07.10.2010 / 21:03
3

Você quase certamente não quer diferenciar cada par de arquivos. Você provavelmente iria querer usar algo como o md5sums para obter todas as checagens de todos os arquivos e canalizar isso para alguma outra ferramenta que só reporta checksums duplicados.

    
por 07.10.2010 / 21:02