Existem os fdupes . Mas eu geralmente uso uma combinação de find . -type f -exec md5sum '{}' \; | sort | uniq -d -w 36
Eu tenho um conjunto grande e crescente de arquivos de texto, que são todos bem pequenos (menos de 100 bytes). Eu quero diferenciar cada par de arquivos possíveis e observe quais são duplicatas. Eu poderia escrever um script Python para fazer isso, mas eu estou querendo saber se existe uma ferramenta de linha de comando Linux existente (ou talvez uma simples combinação de ferramentas) que faria isso?
Atualização (em resposta ao comentário mfinni ): os arquivos estão todos em um único diretório, então todos eles têm nomes de arquivos diferentes. (Mas todos eles têm uma extensão de nome de arquivo em comum, facilitando a seleção de todos eles com um curinga.)
Existem os fdupes . Mas eu geralmente uso uma combinação de find . -type f -exec md5sum '{}' \; | sort | uniq -d -w 36
Bem, existe o FSlint - que eu não usei para este caso particular, mas eu deveria ser capaz de lidar com isso: link
Você quase certamente não quer diferenciar cada par de arquivos. Você provavelmente iria querer usar algo como o md5sums para obter todas as checagens de todos os arquivos e canalizar isso para alguma outra ferramenta que só reporta checksums duplicados.