Como casar 2 conjuntos de dados ligeiramente variáveis em um arquivo viável

0

Espero que eu esteja pensando sobre isso logicamente ... Como é possível combinar dois conjuntos de dados diferentes, mas ainda assim semelhantes em um arquivo viável. Por exemplo, eu tenho um conjunto de dados mestre listando um nome, endereço, cidade e estado do hospital. Eu tenho outro conjunto de dados que tem o nome do hospital, endereço, cidade, estado e informações de vendas. Eu gostaria de me casar com ambos, mas não posso, devido às variações de nuances entre os dois sets ... Por exemplo:

     **Data Set 1**                     **Data Set 2 (with Sales info)**

Hospital Infantil do Hosp de Baltimore Children of Baltimore 123 Baltimore Ave 123 Baltimore Avenue Baltimore, MD 12345 Baltimore, MD 12345

Estes são essencialmente o mesmo hospital, mas com informações ligeiramente variáveis. Alguém sabe de uma maneira de superar essa tarefa?

Qualquer ajuda é muito apreciada.

    
por ACA 24.10.2014 / 22:31

1 resposta

0

Eu usaria o suplemento de pesquisa difusa para isso. Ele será lido em duas tabelas e retornará a melhor correspondência (ou correspondência), juntamente com as pontuações de confiança e similaridade.

link

Com conjuntos de dados típicos, você pode definir limites altos e baixos com base na pontuação de Confiança (por exemplo, aceitar qualquer correspondência acima de 0,9, rejeitar qualquer correspondência abaixo de 0,5), o que deixa você com um conjunto menor de candidatos para revisão manual. / p>     

por 27.10.2014 / 03:34