sort filename | saída uniq não está removendo os duplicados

3

Então, estou usando o comando da seguinte forma:

sort file1.txt | uniq > cleared.txt

No entanto, o arquivo.txt.txt tem exatamente o mesmo tamanho e todas as duplicatas ainda estão lá. Você poderia, por favor, explicar o que está errado na maneira que estou tentando fazer e talvez dar alternativas também?

Obrigado!

Atualização: tentei usar o seguinte comando awk, mas as duplicatas ainda estão lá.

awk '!seen[$0]++'

Talvez seja útil mencionar que o arquivo que estou tentando limpar é coletado de arquivos diferentes que podem ter origem em diferentes países / layouts. Por favor, note que quero manter uma cópia das palavras duplicadas.

    
por Never.too.old.to.learn 23.12.2016 / 03:27

1 resposta

4

Provavelmente você tem espaços à direita que estão causando a designação não exclusiva. Tente removê-los com xargs, como:

sort file1 | xargs -n 1 |uniq
    
por ubfan1 23.12.2016 / 05:53