ferramentas de software para limpar dados confusos (arquivos simples, Excel, etc) semi-automaticamente?

2

Eu recebo rotineiramente arquivos, geralmente planilhas do Excel, que contêm dados inseridos manualmente que superaram a utilidade das planilhas. Eu então limpo esses arquivos para importação em um banco de dados.

às vezes é fácil, às vezes trabalhoso, dependendo de quão "limpos" são os dados.

por exemplo, algo como:

Name            Age     Phone #
J Smith         31 yo   8019219210
Smith, Mary Alice  43     (203) 456-7788

Eu traduzo para:

First_Name  Middle_Name Last_Name      Age  Phone_Number
J            NULL        Smith          31   801-921-9210
Mary          Alice       Smith          43   203-456-7788

Eu realmente adoraria alguns softwares que me ajudassem a definir parâmetros para o que cada coluna "deveria parecer", sinalizar automaticamente os valores que são suspeitos e permitir que eu os percorra para fazer as edições necessárias.

Alguém sabe se um software como esse existe? Eu tenho que imaginar, mas não tenho ideia de como começar a encontrá-lo.

Também estou aberto a procedimentos operacionais padrão que ajudam a alcançar o mesmo tipo de tarefa com eficiência.

Obrigado!

    
por Stew 30.09.2010 / 19:54

2 respostas

4

Não muito depois de postar isso, o Google lançou o Google Refine, que parece ter todos os recursos que eu imaginava, e depois alguns.

link

Consegui um novo emprego quando descobri o refinamento, ou certamente teria tentado em alguns dados do mundo real. no momento eu não usei eu mesmo, então eu não posso comentar sobre sua qualidade - mas aquele vídeo de demonstração me surpreendeu, e certamente parece ser o utilitário que eu estava procurando quando eu postei essa pergunta.

se você usou e é útil, vote nessa resposta. se receber um par de votos, selecionarei esta resposta.

    
por 08.04.2011 / 21:57
0

Se o layout da sua coluna nos arquivos recebidos for quase consistente, você provavelmente poderá escrever uma macro para fazer quase tudo. Dividir um nome (com regras para identificar o último seguido por uma vírgula, etc), fazer um número de idade, formatar o telefone.

Você pode até ter um ciclo completo e, quando estiver em dúvida, formatar condicionalmente a linha para receber mais atenção.

    
por 30.09.2010 / 20:29