Existe o pacote fdupes no linux (por exemplo, ele está presente no repositório debian). Ele usa md5sums e, em seguida, uma comparação byte a byte para localizar arquivos duplicados em um conjunto de diretórios. Ele também pode excluir dups com a opção -d, mas nunca usei essa opção. Também você pode grep ou sed de arquivos de saída para excluir e removê-los do disco.