Win: Remover linhas duplicadas no enorme arquivo txt

Question

Win: Remover linhas duplicadas no enorme arquivo txt

#1 resposta do (2 votos)
#2 resposta do (1 votos)

1

Eu preciso remover linhas duplicadas de um texto enorme. O arquivo tem cerca de 150 mb de tamanho. Quando eu tento PSPad, eu recebo erro de memória (apesar de eu ter 8 GB de RAM).

Tem alguma ideia ou conselho sobre como remover essas duplicatas?

windows-7 duplicate

por user3620512 02.08.2014 / 15:26

2 respostas

Tags windows-7 duplicate

SsdLife diz “saúde da unidade está ruim” na minha CT240M500SSD1 Foram encontrados erros durante o processamento do fusível

score 2 · Answer 1

Gawk: linguagem de processamento e digitalização de padrões Download- > Binários- > Zip

Copie "awk.exe" (gawk-3.1.6-1-bin \ bin \ awk.exe) para o seu diretório. Crie um arquivo bat:

awk "!x[$0]++" huge.txt>output.txt

score 1 · Answer 2

Você pode baixar o $ Notepad ++ e usar o plugin TextFX. Instale o Text FX indo para Plugins -> Plugin Manager -> Show Plugin Manager -> Available tab -> TextFX -> Install . Depois que você instalá-lo, haverá um novo menu chamado TextFX Selecione a parte do documento duplicada (ou apenas selecione o documento inteiro). Vá para TextFX -> TextFX Tools , selecione +Sort outputs only UNIQUE... e sort lines case sensitive ou sort lines case insensitive .