Removendo duplicatas do arquivo txt

Question

Removendo duplicatas do arquivo txt

#1 resposta do (2 votos)

0

Eu tenho um arquivo txt que pode conter até 13.000.000 de códigos gerados aleatoriamente separados por "\ n" pela função fputcsv em php.

Qual é a maneira mais eficaz de remover duplicatas desse arquivo?

Obrigado!

csv deduplication

por Mads Nielsen 29.03.2016 / 19:18

1 resposta

Tags csv deduplication

Bash / Shell: Obtenha a lista dos arquivos mais recentes por ctime no diretório, classifique e recupere apenas 3 para cada um deles Inicia automaticamente o perfmon na inicialização

score 2 · Accepted Answer

Acho que o problema aqui é que o Excel tem um limite de 1,048,576 linhas e seu conjunto de dados tem 13 milhões de entradas. Cada entrada deve estar em uma linha separada.

Supondo que você esteja no Windows, você pode usar um programa chamado NotePad ++ para localizar e remover duplicatas. A resposta ao StackOverflow sugere o uso de uma expressão regular ou de um plug-in.

Eu usaria a opção de expressão regular. Abaixo está um breve resumo da resposta do SO.

Garanta que cada entrada esteja em uma única linha
Abra a localização e substitua
Selecione o modo de expressão regular
Insira a expressão ^(.*?)$\s+?^(?=.*^$) na caixa de pesquisa
Deixe a caixa de substituição vazia
Clique em Substituir tudo

Se esses dados forem uma exportação de um banco de dados, convém alterar sua instrução SQL antes da exportação, adicionando DISTINCT após o SELECT . Veja aqui para um exemplo.