Partilhar via


Limpeza de dados

Aplica-se a:SQL Server

A limpeza de dados é o processo de analisar a qualidade dos dados em uma fonte de dados, aprovando/rejeitando manualmente as sugestões do sistema e, assim, fazendo alterações nos dados. A limpeza de dados no Data Quality Services (DQS) inclui um processo assistido por computador que analisa como os dados estão em conformidade com o conhecimento em uma base de dados de conhecimento e um processo interativo que permite que o administrador de dados revise e modifique os resultados do processo assistido por computador para garantir que a limpeza de dados seja exatamente como eles desejam ser feita.

O administrador de dados também pode executar a limpeza de dados no processo de empacotamento do Integration Services. Nesse caso, o administrador de dados usaria o componente Limpeza do DQS no Integration Services que executa automaticamente a limpeza de dados usando uma base de dados de conhecimento existente. Para obter mais informações, consulte DQS Cleansing Transformation.

O recurso de limpeza de dados no DQS tem os seguintes benefícios:

  • Identifica dados incompletos ou incorretos em sua fonte de dados (arquivo do Excel ou banco de dados do SQL Server) e, em seguida, corrige ou alerta sobre os dados inválidos.

  • Fornece um processo de duas etapas para limpar os dados: assistida por computador e interativo. O processo assistido por computador usa o conhecimento em uma base de conhecimento do DQS para processar automaticamente os dados e sugerir substituições/correções. A próxima etapa, interativa, permite que o administrador de dados aprove, rejeite ou modifique as alterações propostas pelo DQS durante a limpeza assistida por computador.

  • Padroniza e enriquece os dados do cliente usando valores de domínio, regras de domínio e dados de referência. Por exemplo, padronize o uso do termo alterando "St." para "Street", enriqueça os dados preenchendo os elementos ausentes alterando "1 Microsoft way Redmond 98006" para "1 Microsoft Way, Redmond, WA 98006".

  • Fornece uma interface simples, intuitiva e consistente semelhante a um assistente para o usuário navegar dados e inspecionar erros entre um conjunto muito grande de dados.

A ilustração a seguir mostra como a limpeza de dados é feita no DQS:

Processo de Limpeza de Dados no DQS

Limpeza assistida por computador

O processo de limpeza de dados do DQS aplica a base de dados de conhecimento aos dados a serem limpos e propõe alterações nos dados. O administrador de dados tem acesso a cada alteração proposta, o que lhe permite avaliar e corrigir as alterações. Para executar a limpeza de dados, o administrador de dados procede da seguinte maneira:

  1. Crie um projeto de qualidade de dados, selecione uma base de dados de conhecimento em relação à qual você deseja analisar e limpar seus dados de origem e selecione a atividade Limpeza. Vários projetos de qualidade de dados podem usar a mesma base de conhecimento.

  2. Especifique a tabela/exibição do banco de dados ou um arquivo do Excel que contenha os dados de origem a serem limpos. O banco de dados ou o arquivo do Excel pode ser o mesmo que foi usado para a descoberta de conhecimento, ou pode ser um banco de dados diferente ou um arquivo do Excel.

    Observação

    Se você selecionar a mesma fonte de dados para atividades de descoberta e limpeza de conhecimento, não haverá alteração nos dados. É recomendável executar a descoberta de conhecimento em um conjunto de dados de amostra e, posteriormente, limpar os dados de origem com base no conhecimento criado durante a atividade de descoberta.

  3. Mapeie os campos de dados a serem limpos para domínios apropriados/domínios compostos na base de dados de conhecimento. Se você mapear um campo para um domínio composto, o mapeamento acontecerá entre o campo e o domínio composto, e não com os domínios individuais no domínio composto. Além disso, a limpeza de dados para o campo mapeado é feita com base nas regras especificadas para o domínio composto e não para os domínios individuais no domínio composto. Para obter mais informações sobre domínios compostos, consulte DQS Knowledge Bases and Domains.

  4. Execute o processo de limpeza assistida por computador clicando em Iniciar na página Limpeza.

O processo de limpeza de dados encontra a melhor correspondência de uma instância de dados com valores de domínio de dados conhecidos. O processo aplica o conhecimento de qualidade de dados a todos os dados de origem, diferentemente do processo de descoberta de conhecimento, que é executado em uma porcentagem dos dados amostrais.

O processo assistido por computador exibe informações de qualidade de dados no Data Quality Client que serão usadas para o processo de limpeza interativo. Além da aderência às regras de erro de sintaxe, o DQS também usa dados de referência e algoritmos avançados para categorizar dados usando nível de confiança. O nível de confiança indica o grau de certeza do DQS para a correção ou sugestão. O nível de confiança baseia-se nos seguintes limiares:

  • Um valor de limite de correção automática , acima do qual o DQS sugerirá uma alteração e efetuará a mudança, a menos que o administrador de dados a rejeite. Você pode especificar o valor do limite de correção automática na aba Configurações Gerais na tela de Configuração. Para obter mais informações, consulte Configurar valores de limite para limpeza e correspondência.

  • Um limite de sugestão automática valor, abaixo do limite de correção automática, acima do qual o DQS sugerirá uma alteração, e fazê-lo se o administrador de dados aprová-la. Você pode especificar o valor do limite de sugestão automática na guia Configurações Gerais do na tela Configuração . Para obter mais informações, consulte Configurar valores de limite para limpeza e correspondência.

Qualquer valor com um nível de confiança abaixo do valor limite de sugestão automática é deixado como está pelo DQS, a menos que o administrador de dados especifique uma alteração.

Limpeza Interativa

Com base no processo de limpeza assistido por computador, o DQS fornece ao administrador de dados as informações de que ele precisa para tomar uma decisão sobre a alteração dos dados. O DQS categoriza os dados nas cinco guias a seguir:

  • sugerido: Valores para os quais o DQS encontrou sugestões que têm um nível de confiança superior ao valor de limiar de autossugestão , mas inferior ao valor de limiar de correção automática . Você deve revisar esses valores e aprovar ou rejeitar conforme apropriado.

  • Novo: Valores válidos para os quais o DQS não tem informações suficientes (sugestão) e, portanto, não podem ser mapeados para nenhuma outra guia. Além disso, essa guia também contém valores que têm nível de confiança menor do que o valor limite de sugestão automática , mas alto o suficiente para ser marcado como válido.

  • inválido: valores que foram marcados como inválidos no domínio na base de conhecimento ou valores que falharam numa regra de domínio ou nos dados de referência. Esta guia também conterá valores que são rejeitados pelo usuário em qualquer uma das outras quatro guias durante o processo de limpeza interativa.

  • Corrigido: Valores que são corrigidos pelo DQS durante o processo de limpeza automatizado, dado que o DQS encontrou uma correção para o valor com nível de confiança acima do valor de limiar de para correção automática. Este separador também conterá valores para os quais o utilizador especificou um valor correto na coluna Correto para durante a limpeza interativa e, em seguida, aprovou clicando no botão de rádio na coluna Aprovar em qualquer um dos outros quatro separadores.

  • Correto: Valores que foram encontrados corretos. Por exemplo, o valor correspondia a um valor de domínio. Se necessário, pode-se substituir a limpeza do DQS rejeitando valores nesta aba, ou especificando uma palavra alternativa na coluna Corrigir para e, em seguida, clicando no seletor na coluna Aceitar. Esta guia também conterá valores que foram aprovados pelo utilizador durante a limpeza interativa, clicando no botão de rádio na coluna Aprovar no separador Novo ou no separador Inválido.

Observação

Nas abas Sugerido, Corrigidoe Correto, o DQS exibe o valor principal de um domínio, se aplicável, na coluna Corrigir para para o respetivo valor de domínio.

O administrador de dados usa o Data Quality Client para ver as alterações propostas pelo DQS e decidir se as implementa ou não. Eles podem verificar se os valores que o DQS designou como corretos estão de fato corretos. Eles podem confirmar que as alterações já feitas pelo DQS, com um alto nível de confiança, eram necessárias. O administrador pode decidir se aprova as alterações sugeridas automaticamente. E podem rever valores que não foram alterados, caso queiram fazer uma alteração não encontrada pelo processo assistido por computador.

O DQS mesclará quaisquer alterações feitas pelo administrador de dados com os resultados da limpeza de dados assistida por computador. Essas mudanças permanecerão com o projeto; no entanto, não serão adicionados à base de conhecimentos. Durante a limpeza de dados, a base de conhecimento associada é apenas leitura.

Quando o processo de limpeza de dados estiver concluído, você poderá optar por exportar os dados processados para uma nova tabela em um banco de dados do SQL Server, arquivo .csv ou arquivo do Excel. Os dados de origem nos quais a limpeza é realizada são mantidos em seu estado original. O administrador de dados pode usar os dados limpos separados para corrigir os dados de origem reais.

A ilustração a seguir exibe como a limpeza de dados é feita usando o aplicativo Cliente Data Quality:

Limpeza de dados no cliente Data Quality

Correção de Valor Principal

A correção de valor principal aplica-se a valores de domínio que têm sinônimos, e o usuário deseja usar um dos valores de sinônimo como o valor principal em vez de outros para a representação consistente do valor. Por exemplo, "New York", "NYC" e "big apple" são sinônimos, e o usuário quer usar "New York" como o valor principal em vez de "NYC" e "Big Apple". O DQS suporta a correção de valores principais durante a fase de limpeza dos dados para ajudar a padronizar os seus dados. A correção de valor principal é feita somente se o domínio tiver sido habilitado para tal quando foi criado. Por padrão, todos os domínios são habilitados para correção de valor inicial, a menos que você tenha desmarcado a caixa de seleção Usar Valores Iniciais ao criar um domínio. Para obter mais informações sobre essa caixa de seleção, consulte Definir propriedades do domínio.

Padronizar dados limpos

Você pode escolher se deseja exportar os dados limpos no formato padronizado com base no formato de saída definido para domínios. Ao criar um domínio, você pode selecionar a formatação que será aplicada quando os valores de dados no domínio forem produzidos. Para obter mais informações sobre como especificar formatos de saída para um domínio, consulte a lista Formatar a saída para em Definir propriedades do domínio.

Ao exportar os dados limpos na página Exportar do assistente de projeto de qualidade de dados de limpeza, especifique se deseja que os dados limpos sejam exportados no formato padronizado marcando a caixa de seleção Padronizar Saída. Por padrão, os dados limpos são exportados no formato padronizado, ou seja, a caixa de seleção está marcada. Para obter mais informações sobre como exportar os dados limpos, consulte Limpar dados usando o DQS (interno) Knowledge.

Descrição da Tarefa Tópico
Descreve como configurar valores de limite para a atividade de limpeza. Configurar valores de limite para limpeza e correspondência de
Descreve como limpar dados usando o conhecimento interno do DQS. Limpar Dados Usando o Conhecimento do DQS (Interno)
Descreve como limpar dados usando o conhecimento do serviço de dados de referência. Limpar Dados Utilizando Dados de Referência Externos de Conhecimento
Descreve como limpar um domínio composto. limpar dados em um domínio composto

Ver também

Projetos de Qualidade de Dados (DQS)
Correspondência de Dados