Qualidade dos dados
A qualidade dos dados é uma função de gestão da análise à escala da nuvem. Ele reside na zona de aterrissagem de gerenciamento de dados e é uma parte central da governança.
Considerações sobre a qualidade dos dados
A qualidade dos dados é da responsabilidade de cada indivíduo que cria e consome produtos de dados. Os criadores devem aderir às regras globais e de domínio, enquanto os consumidores devem relatar inconsistências de dados ao domínio de dados proprietário por meio de um ciclo de feedback.
Como a qualidade dos dados afeta todos os dados fornecidos ao conselho, ela deve começar na parte superior da organização. O conselho de administração deve ter informações sobre a qualidade dos dados que lhe são fornecidos.
No entanto, ser proativo ainda exige que você tenha especialistas em qualidade de dados que possam limpar baldes de dados que exigem correção. Evite enviar esse trabalho para uma equipe central e, em vez disso, direcione o domínio de dados, com conhecimento de dados específico, para limpar os dados.
Métricas de qualidade de dados
As métricas de qualidade de dados são fundamentais para avaliar e aumentar a qualidade de seus produtos de dados. Em um nível global e de domínio, você precisa decidir sobre suas métricas de qualidade. No mínimo, recomendamos as seguintes métricas:
Métricas | Definições de métricas |
---|---|
Completude = % total de não-nulos + não espaços em branco | Mede a disponibilidade de dados, campos no conjunto de dados que não estão vazios e valores padrão que foram alterados. Por exemplo, se um registro incluir 01/01/1900 como data de nascimento, é altamente provável que o campo nunca tenha sido preenchido. |
Exclusividade = % de valores não duplicados | Mede valores distintos em uma determinada coluna em comparação com o número de linhas na tabela. Por exemplo, dados quatro valores de cor distintos (vermelho, azul, amarelo e verde) em uma tabela com cinco linhas, esse campo é 80% (ou 4/5) exclusivo. |
Consistência = % de dados com padrões | Mede a conformidade dentro de uma determinada coluna com seu tipo de dados ou formato esperado. Por exemplo, um campo de e-mail contendo endereços de e-mail formatados ou um campo de nome com valores numéricos. |
Validade = % de correspondência de referência | Mede a correspondência bem-sucedida de dados com seu conjunto de referência de domínio. Por exemplo, dado um campo de país/região (em conformidade com os valores de taxonomia) em um sistema de registros transacionais, o valor de "US of A" não é válido. |
Precisão = % de valores inalterados | Mede a reprodução bem-sucedida dos valores pretendidos em vários sistemas. Por exemplo, se uma fatura discriminar um SKU e um preço estendido que difere do pedido original, o item da linha da fatura será impreciso. |
Ligação = % de dados bem integrados | Mede a associação bem-sucedida aos detalhes de referência do seu companheiro em outro sistema. Por exemplo, se uma fatura discriminar uma SKU incorreta ou uma descrição do produto, o item da linha da fatura não poderá ser vinculado. |
Definição de perfis de dados
A criação de perfil de dados examina os produtos de dados registrados no catálogo de dados e coleta estatísticas e informações sobre esses dados. Para fornecer visualizações de resumo e tendência sobre a qualidade dos dados ao longo do tempo, armazene esses dados em seu repositório de metadados em relação ao produto de dados.
Os perfis de dados ajudam os usuários a responder a perguntas sobre produtos de dados, incluindo:
- Pode ser usado para resolver o problema do meu negócio?
- Os dados estão em conformidade com padrões ou padrões específicos?
- Quais são algumas das anomalias da fonte de dados?
- Quais são os possíveis desafios da integração desses dados no meu aplicativo?
Os usuários podem exibir o perfil do produto de dados usando um painel de relatórios em seu mercado de dados.
Você pode relatar itens como:
- Exaustividade: indica a porcentagem de dados que não estão em branco ou nulos.
- Exclusividade: indica a porcentagem de dados que não são duplicados.
- Consistência: indica os dados onde a integridade dos dados é mantida.
Recomendações sobre a qualidade dos dados
Para implementar a qualidade dos dados, você precisa usar o poder humano e computacional da seguinte maneira:
Use soluções que incluam algoritmos, regras, perfil de dados e métricas.
Use especialistas de domínio que podem intervir quando há um requisito para treinar um algoritmo devido a um alto número de erros que passam pela camada de computação.
Valide com antecedência. As soluções tradicionais aplicam verificações de qualidade de dados depois de extrair, transformar e carregar os dados. Por esta altura, o produto de dados já está a ser consumido e surgiram erros nos produtos de dados a jusante. Em vez disso, à medida que os dados são ingeridos da fonte, implemente verificações de qualidade dos dados perto das fontes e antes que os consumidores a jusante usem os produtos de dados. Se houver ingestão em lote do data lake, faça essas verificações ao mover dados brutos para enriquecidos.
Antes que os dados sejam movidos para a camada enriquecida, seu esquema e colunas são verificados em relação aos metadados registrados no catálogo de dados.
Se os dados contiverem erros, a carga será interrompida e a equipe do aplicativo de dados será notificada da falha.
Se as verificações de esquema e coluna passarem, os dados serão carregados nas camadas enriquecidas com tipos de dados conformes.
Antes de passar para a camada enriquecida, um processo de qualidade de dados verifica a conformidade com os algoritmos e regras.
Gorjeta
Defina regras de qualidade de dados em nível global e de domínio. Isso permite que a empresa defina seus padrões para cada produto de dados criado e permite que os domínios de dados criem regras adicionais relacionadas ao seu domínio.
Soluções de qualidade de dados
Recomendamos avaliar o Microsoft Purview Data Quality como uma solução para avaliar e gerenciar a qualidade dos dados, o que é crucial para insights e tomadas de decisão confiáveis orientados por IA. Inclui:
- Regras sem código/low-code: avalie a qualidade dos dados usando regras prontas para uso e geradas por IA.
- Perfil de dados alimentado por IA: recomenda colunas para criação de perfis e permite a intervenção humana para refinamento.
- Pontuação de qualidade de dados: fornece pontuações para ativos de dados, produtos de dados e domínios de governança.
- Alertas de qualidade de dados: notifica os proprietários de dados sobre problemas de qualidade.
Para obter mais informações, consulte O que é qualidade de dados.
Se sua organização decidir implementar o Azure Databricks para manipular dados, você deverá avaliar os controles de qualidade de dados, testes, monitoramento e imposição que essa solução oferece. O uso de expectativas pode capturar problemas de qualidade de dados na ingestão antes que eles afetem os produtos de dados infantis relacionados. Para obter mais informações, consulte Estabelecer padrões de qualidade de dados e Gerenciamento de qualidade de dados com Databricks.
Você também pode escolher entre parceiros, código aberto e opções personalizadas para uma solução de qualidade de dados.
Resumo da qualidade dos dados
Corrigir a qualidade dos dados pode ter sérias consequências para uma empresa. Isso pode levar as unidades de negócios a interpretar produtos de dados de maneiras diferentes. Essa interpretação incorreta pode ser dispendiosa para os negócios se as decisões forem baseadas em produtos de dados com menor qualidade de dados. Corrigir produtos de dados com atributos ausentes pode ser uma tarefa cara e pode exigir recargas completas de dados de vários períodos.
Valide a qualidade dos dados antecipadamente e implemente processos para resolver proativamente a má qualidade dos dados. Por exemplo, um produto de dados não pode ser liberado para produção até atingir uma certa quantidade de completude.
Você pode usar ferramentas como uma escolha livre, mas certifique-se de que elas incluam expectativas (regras), métricas de dados, criação de perfis e a capacidade de proteger as expectativas para que você possa implementar expectativas globais e baseadas em domínio.