Win: Remover linhas duplicadas no enorme arquivo txt

1

Eu preciso remover linhas duplicadas de um texto enorme. O arquivo tem cerca de 150 mb de tamanho. Quando eu tento PSPad, eu recebo erro de memória (apesar de eu ter 8 GB de RAM).

Tem alguma ideia ou conselho sobre como remover essas duplicatas?

    
por user3620512 02.08.2014 / 17:26

2 respostas

2

Gawk: linguagem de processamento e digitalização de padrões Download- > Binários- > Zip

Copie "awk.exe" (gawk-3.1.6-1-bin \ bin \ awk.exe) para o seu diretório. Crie um arquivo bat:

awk "!x[$0]++" huge.txt>output.txt
    
por 02.08.2014 / 21:56
1

Você pode baixar o $ Notepad ++ e usar o plugin TextFX. Instale o Text FX indo para Plugins -> Plugin Manager -> Show Plugin Manager -> Available tab -> TextFX -> Install . Depois que você instalá-lo, haverá um novo menu chamado TextFX Selecione a parte do documento duplicada (ou apenas selecione o documento inteiro). Vá para TextFX -> TextFX Tools , selecione +Sort outputs only UNIQUE... e sort lines case sensitive ou sort lines case insensitive .

    
por 02.08.2014 / 17:53