compare listas e retenha duplicatas [duplicado]

0

Eu tenho uma lista com muitas duplicatas, por exemplo:

AARC
AARC
AARC
TNGT
TNGT
TNGT
CAAC
CAAC

E uma lista sem duplicatas, por exemplo:

AARC
TNGT
YUGT
BATR

Todas as entradas na primeira lista aparecerão na segunda lista, mas não vice-versa.

Eu quero comparar as listas e descobrir quantas entradas existem em ambas, mas quero reter e reconhecer duplicatas. Por exemplo, a saída pode ser:

AARC
AARC
AARC
TNGT
TNGT
TNGT

Ou

AARC\tAARC
AARC\tAARC
AARC\tAARC
TNGT\tTNGT
TNGT\tTNGT
TNGT\tTNGT

O problema que estou tendo é que a comunicação captura a primeira duplicata e prossegue, contando as entradas subsequentes como não sendo compartilhadas. Cada artigo eu posso encontrar referências on-line removendo duplicatas, não retendo-as. Costumava haver um banco de dados que eu poderia usar para isso, mas eles recentemente mudaram seu comportamento padrão para remover duplicatas, e com milhares de entradas eu não posso fazer isso manualmente: /

    
por sorrymouse 12.03.2018 / 22:48

1 resposta

1

Se eu entendi bem, você quer filtrar todas as palavras da primeira lista que não estão na segunda lista.

Você pode usar grep para isso. Este comando:

grep -w -f list2.txt list1.txt

A saída será:

AARC
AARC
AARC
TNGT
TNGT
TNGT

Verifique também este tópico .

    
por 13.03.2018 / 00:03