O que é Data Scrubbing no contexto do banco de dados?

5

Mesmo depois de ler sobre Data Scrubbing na Wikipedia, ainda não estou claro sobre o que realmente é a Data Scrubbing quando o termo é usado para banco de dados.

É um princípio de engenharia formal que existe uma maneira predefinida de executar a depuração de dados? Em caso afirmativo, qual é a palavra-chave que eu deveria pesquisar?

- ou -

É um geral ou um termo vago para simplesmente limpar dados inconsistentes no banco de dados?

O que é a depuração de dados?

    
por Sung Kim 10.06.2009 / 16:33

2 respostas

5

Em um contexto de banco de dados, é a correção de dados que é consistente com o esquema, mas errônea em um nível superior, por exemplo, Números de cartão de crédito e SSNs inválidos, registros duplicados, incompatibilidades de formato e assim por diante.

É um termo geral e solto que só adquire significado específico em um contexto de caso particular.

    
por 10.06.2009 / 16:48
3

Eu criei rotinas de "Data Scrubbing" para verificar periodicamente e corrigir problemas de banco de dados que podem não ser práticos para verificar em tempo real (ou seja, verificar erros, inconsistências ou duplicatas quando os dados são inseridos). Uma rotina de depuração pode corrigir tipos específicos de erros, como verificar se a entrada do CEP corresponde à cidade / estado ou talvez procurar variações de um nome de cliente (cliente duplicado), dado o endereço.

Às vezes, quando um banco de dados é desnormalizado (por motivos de desempenho), uma rotina de depuração pode verificar o banco de dados durante horários "fora do horário de pico" para garantir que os dados permaneçam consistentes.

    
por 10.06.2009 / 16:55