Remove linhas duplicadas e mantém a linha mais nova baseada na coluna de data

3

Eu tenho uma lista enorme de dados no Excel (250.000+ linhas) no seguinte formato:

Number  Value1  Date            Value2
40325   1       21/01/11 18.10  2
65485   3       22/01/11 16.47  2
40325   9       25/01/11 19.00  0
70912   8       27/01/11 16.43  2

Eu preciso remover linhas duplicadas com base na coluna 1 (Número) e não tenho nenhum problema em fazer isso usando "Dados / Remover Duplicados" no Excel, mas preciso remover a linha com a data mais antiga e mantenha o mais novo, baseado na coluna 3 (Data).

No exemplo acima, eu precisaria remover a linha 1 e manter a linha 3, já que a linha 3 é a mais nova.

Eu tenho 4.800 linhas com duplicatas, portanto, uma classificação / remoção manual seria um trabalho muito demorado.

Alguma boa sugestão? E truques para me ajudar? Muito obrigado antecipadamente:)

    
por Bjarke Mønsted 27.05.2015 / 18:20

1 resposta

6

O truque é classificar sua tabela antes de usar Remove duplicates . O Excel sempre mantém o primeiro conjunto de dados de uma linha duplicada. Todas as linhas consecutivas são removidas.

No seu caso:

  1. Configure uma coluna auxiliar e preencha-a com valores numéricos. Comece por 1 e use o preenchimento automático até o final da nossa tabela

  2. Certifique-sedequesuacolunadedatasestejaformatadacomodataeoExcelasreconheçacomodata.Casocontrário,suaclassificaçãonãofuncionaria

  3. EscolhaCustomsort(dependedasuaversãodoExcel).ClassifiquetodaatabelaporcolunadedatadeMaisrecenteparaMaisantigo.Essaéaparteimportantedo

  4. Use Remove duplicates e selecione apenas sua coluna Número , que mantém seus critérios para verificar se há duplicatas. Desmarque todas as outras colunas

  5. EscolhaCustomSortnovamenteeclassifiquesuatabelapelacolunaAuxiliarqueadicionamosnoiníciopararecuperarseupedidodelinhaoriginal

por 27.05.2015 / 19:00