Acho que o problema aqui é que o Excel tem um limite de 1,048,576 linhas e seu conjunto de dados tem 13 milhões de entradas. Cada entrada deve estar em uma linha separada.
Supondo que você esteja no Windows, você pode usar um programa chamado NotePad ++ para localizar e remover duplicatas. A resposta ao StackOverflow sugere o uso de uma expressão regular ou de um plug-in.
Eu usaria a opção de expressão regular. Abaixo está um breve resumo da resposta do SO.
- Garanta que cada entrada esteja em uma única linha
- Abra a localização e substitua
- Selecione o modo de expressão regular
- Insira a expressão
^(.*?)$\s+?^(?=.*^$)
na caixa de pesquisa - Deixe a caixa de substituição vazia
- Clique em Substituir tudo
Se esses dados forem uma exportação de um banco de dados, convém alterar sua instrução SQL antes da exportação, adicionando DISTINCT
após o SELECT
. Veja aqui para um exemplo.