Gawk: linguagem de processamento e digitalização de padrões Download- > Binários- > Zip
Copie "awk.exe" (gawk-3.1.6-1-bin \ bin \ awk.exe) para o seu diretório. Crie um arquivo bat:
awk "!x[$0]++" huge.txt>output.txt
Eu preciso remover linhas duplicadas de um texto enorme. O arquivo tem cerca de 150 mb de tamanho. Quando eu tento PSPad, eu recebo erro de memória (apesar de eu ter 8 GB de RAM).
Tem alguma ideia ou conselho sobre como remover essas duplicatas?
Gawk: linguagem de processamento e digitalização de padrões Download- > Binários- > Zip
Copie "awk.exe" (gawk-3.1.6-1-bin \ bin \ awk.exe) para o seu diretório. Crie um arquivo bat:
awk "!x[$0]++" huge.txt>output.txt
Você pode baixar o $ Notepad ++ e usar o plugin TextFX. Instale o Text FX indo para Plugins -> Plugin Manager -> Show Plugin Manager -> Available tab -> TextFX -> Install
. Depois que você instalá-lo, haverá um novo menu chamado TextFX
Selecione a parte do documento duplicada (ou apenas selecione o documento inteiro). Vá para TextFX -> TextFX Tools
, selecione +Sort outputs only UNIQUE...
e sort lines case sensitive
ou sort lines case insensitive
.