Removendo duplicatas do arquivo txt

0

Eu tenho um arquivo txt que pode conter até 13.000.000 de códigos gerados aleatoriamente separados por "\ n" pela função fputcsv em php.

Qual é a maneira mais eficaz de remover duplicatas desse arquivo?

Obrigado!

    
por Mads Nielsen 29.03.2016 / 21:18

1 resposta

2

Acho que o problema aqui é que o Excel tem um limite de 1,048,576 linhas e seu conjunto de dados tem 13 milhões de entradas. Cada entrada deve estar em uma linha separada.

Supondo que você esteja no Windows, você pode usar um programa chamado NotePad ++ para localizar e remover duplicatas. A resposta ao StackOverflow sugere o uso de uma expressão regular ou de um plug-in.

Eu usaria a opção de expressão regular. Abaixo está um breve resumo da resposta do SO.

  1. Garanta que cada entrada esteja em uma única linha
  2. Abra a localização e substitua
  3. Selecione o modo de expressão regular
  4. Insira a expressão ^(.*?)$\s+?^(?=.*^$) na caixa de pesquisa
  5. Deixe a caixa de substituição vazia
  6. Clique em Substituir tudo

Se esses dados forem uma exportação de um banco de dados, convém alterar sua instrução SQL antes da exportação, adicionando DISTINCT após o SELECT . Veja aqui para um exemplo.

    
por 31.03.2016 / 15:13