Excluindo linhas duplicadas no arquivo TEXT?

3

Eu estou tentando limpar um texto e, por algum motivo, cada linha é duplicada 3 vezes eu sou capaz de obter passeio de duplicatas com regex ou truques ou você conhece um software que poderia fazer isso, arquivo de texto é assim

Party Started 10:17 (89/1/2)
Party Started 10:17 (89/1/2)
Party Started 10:17 (89/1/2)
Jessica At Dinner 17:54 (89/1/2)
Jessica At Dinner 17:54 (89/1/2)
Jessica At Dinner 17:54 (89/1/2)

Como posso limpá-lo e obter passeio de linhas duplicadas, é cerca de 69.587 linhas

    
por echolab 24.06.2012 / 12:44

3 respostas

8

Você pode usar uniq , padrão com bash. Basta digitar:

uniq filewithdup.txt > filenew.txt
    
por 24.06.2012 / 12:48
5

Como você mencionou o MS Office, darei a você uma solução nativa do Windows.

Se você estiver usando o Windows Vista ou posterior, há o Windows PowerShell integrado. Você pode usar o comando Get-Unique :

The Get-Unique cmdlet compares each item in a sorted list to the next item, eliminates duplicates, and returns only one instance of each item. The list must be sorted for the cmdlet to work properly.

Get-Content input.txt | Get-Unique | Set-Content output.txt

Se não estiver ordenado, você pode usar Sort-Object -Unique (ele também funciona em entradas já classificadas, mas não não é usado se você não quiser remover duplicatas com outras linhas entre elas). / p>

Get-Content input.txt | Sort-Object -Unique | Set-Content output.txt
    
por 24.06.2012 / 13:03
1

Regex foi marcado, então:

/(.+)\n/g
    
por 24.06.2012 / 22:19