Fazer uma comparação caractere por caractere de dois arquivos de texto é efetivamente um cálculo Distância de Levenshtein . Não há um programa autônomo comum no Linux que faça esse cálculo, mas existem algumas funções de biblioteca (eu sei que o PHP tem uma) e toneladas de código de exemplo online para esse cálculo.
Outra pequena advertência é que a distância de Levenshtein é estritamente o número de mudanças entre duas strings, então se você está procurando por uma porcentagem, você precisará normalizar a distância calculada. Dividir pela média dos comprimentos das duas strings (tamanhos dos arquivos de texto) é uma normalização amplamente usada.