Listando Palavras Duplicadas

1

Eu tenho um arquivo que se parece com:

(aa,((bb,cc),dd));
(((aa,cc),ee),(ff,gg));
((aa,ff),hh);

Cada linha representa uma árvore filogenética no formato newick . Gostaria de listar todos os nomes que têm duplicados, ou seja, ocorrência > 1. Por exemplo, neste caso, a saída é:

aa, cc, ff
    
por havij 18.02.2016 / 02:54

1 resposta

3
tr -cs '[:alpha:]' '\n' < file | sort | uniq -d | paste -sd,

Esse comando tr converte todas as sequências de não letras em uma nova linha

    
por glenn jackman 18.02.2016 / 03:08