Compare todos os arquivos de texto em um diretório e classifique por semelhança

2

No Unix, existe alguma maneira de comparar cada arquivo de texto em um diretório com todos os outros arquivos de texto no diretório e, em seguida, classificar cada par de arquivos por semelhança (usando o utilitário diff )? Já existem alguns programas Unix de linha de comando (como fdupes) que podem encontrar arquivos duplicados em um diretório, mas eu estou querendo saber se é possível encontrar arquivos semelhantes usando um script de shell também.

    
por Anderson Green 08.01.2013 / 08:57

1 resposta

1

Acho que esta questão é muito ampla em muitos níveis. Termo "diferença" depende do tipo de dados e seu contêiner: txt, mp3, avi, jpg. Para cada um deles você precisa executar seus próprios métodos de processamento. Por exemplo, arquivos de texto ou código-fonte podem requerer apenas diff utility. Arquivos de música, vídeo e imagem requerem lógica fuzzy e algoritmos de aprendizado de computador.

    
por 08.01.2013 / 13:59

Tags