Mesclar dois arquivos com coluna de chave fuzzy / inexact

0

Eu tenho duas planilhas com dimensões diferentes. Eles compartilham uma coluna comum, mas nem todos os nomes são 100% semelhantes. Especificamente, estou fundindo dois arquivos de dados de condados em todo os EUA, um tem dados econômicos e outro tem dados de votação

Em um arquivo, eu posso ter "Harris County" e outro seria "Harris" ambos sob a coluna comum. Qual é a melhor maneira de combinar arquivos, seja no Excel ou R (embora eu esteja menos familiarizado com R). Eu pensei que o VLOOKUP tinha uma solução para isso, mas eu não consegui fazê-lo funcionar.

County  Total Vote  C   O   E   R   Margin  %Margin Clinton Obama   Edwards Richardson  Other       Clinton Obama   Edwards Richardson  Other
Harris  12,525  1   2   3   4   41  0.33%   37.31%  36.98%  18.85%  4.31%   2.55%   4,673   4,632       2,361   540 319

STATEFP10   COUNTYFP10  census track    county  state   economic variable
48  201 Census Tract 2225.01     Harris County   Texas  5
48  201 Census Tract 4214.01     Harris County   Texas  6

As colunas-chave não diferem em qualquer ordem 100% do tempo, por isso não posso simplesmente encontrar e substituir. O que é uma boa maneira de mesclar esses arquivos? Aquele com as informações de votação tem muito (muito) menos linhas e colunas.

    
por tom 22.11.2014 / 01:57

1 resposta

2

Tom, a solução mais robusta seria usar o add-in Fuzzy. Várias outras soluções VBA foram geradas usando a distância Levenshtein, mas sugiro que você experimente o add-in primeiro.

link

    
por 22.11.2014 / 02:23