Procurar e rever a classificação de qualidade dos dados do seu património de dados
Observação
O Catálogo de Dados do Microsoft Purview está a alterar o nome para Catálogo Unificado do Microsoft Purview. Todas as funcionalidades permanecerão iguais. Verá o nome mudar quando a nova experiência de Governação de Dados do Microsoft Purview estiver geralmente disponível na sua região. Verifique o nome na sua região.
Depois de criar regras de qualidade de dados e executar uma análise da qualidade dos dados, os recursos de dados receberão uma classificação de qualidade de dados com base nos resultados das suas regras. Este artigo aborda a forma como as classificações são calculadas para lhe dar uma compreensão mais profunda dos resultados da qualidade dos seus dados e ajuda-o a desenvolver itens de ação para melhorar a integridade dos seus dados.
Compreender as classificações de qualidade dos dados
O objetivo das regras de qualidade dos dados é fornecer uma descrição do estado dos dados. Em particular, mostra a distância entre os dados e o estado ideal descrito pelas regras. Cada regra, quando é executada, produz uma classificação que descreve a proximidade dos dados com o estado pretendido. A maioria das regras são muito simples; dividem o número total de linhas que passaram na avaliação pelo número total de linhas a chegar à pontuação.
A fórmula utilizada para calcular a classificação de qualidade dos dados de uma regra em relação aos dados numa coluna é:
[(total number of passed records)/(passed records + failed records + miscast records + empty records + ignored records)]
- Numerador = número de registos transmitidos
- Denominador = número total de registos (número de registos transmitidos + número de registos falhados + número de registos miscast + número de registos vazios + número de registos ignorados)
- Aprovado - número de registos que passaram uma regra aplicada
- Inestimável – as colunas necessárias para avaliar esta regra não são inestimáveis
- Falha – número de registos que falharam numa regra aplicada
- Miscast – o tipo de dados do recurso e o tipo que o cliente listou como não correspondem. Não pode ser convertido para o tipo expresso.
- Vazio - registos nulos ou em branco
- Ignoradas – as linhas não participaram na avaliação da regra. Os clientes podem expressar linhas a ignorar. Como ignorar todas as linhas que têm e-mail = "n/a" ou Ignorar todas as linhas em que departmentCode = 'test' ou 'internal'
Qualidade de Dados do Microsoft Purview, em seguida, dá uma ideia do estado de cada coluna ao gerar uma classificação de coluna. Esta classificação é a média de todas as classificações das regras nessa coluna.
Assim que as classificações das colunas forem calculadas, a fórmula utilizada para calcular a classificação média de qualidade dos dados percentuais para produtos de dados e domínios de governação é:
[(Percentage 1 + Percentage 2) / (Sample size 1 + Sample size 2)] x 100
(A pontuação é multiplicada por 100 para tornar as pontuações mais legíveis.)
Cálculo de exemplo
Imaginemos que existe uma coluna que não tem a regra "Campos vazios/em branco" definida na mesma. Isto implica que são permitidos valores nulos para esta coluna. Assim, determinadas regras, como a regra de valores exclusivos, filtrarão valores nulos nesse caso.
Por exemplo: se o recurso tiver 10 000 linhas numa tabela, mas 3000 forem nulos e 500 não forem exclusivos, a classificação será: ((10000 - 3000 - 500)/(10000 - 3000) )* 100 = 93
As linhas nulas são ignoradas ao avaliar os dados e determinar uma classificação.
Pontuações de regras específicas
Para regras personalizadas , existe uma capacidade semelhante à que poderá ver para a regra de valores exclusivos, mas neste caso o filtro não está em nulos, mas sim na expressão de filtro.
Algumas regras, como a regra de atualização, são aprovadas ou falham. Assim, as suas pontuações serão 0 ou 100. Além disso, a regra de atualização é aplicada ao nível do recurso de dados, não ao nível das colunas.
Detalhes e histórico da regra
Pode ver os detalhes e o histórico das classificações de regras ao selecionar uma regra. Ao selecionar um nome de regra específico e navegar para o separador histórico de regras, verá a tendência das diferentes execuções de análise para a regra específica.
Os Detalhes da Regra fornecerão informações sobre o número de linhas passadas, falhadas e ignoradas para as várias execuções da regra específica. As regras que estão no estado de rascunho (estado OFF) não terão as suas pontuações a contribuir para a classificação global. As regras num estado de rascunho não serão executadas durante análises de qualidade, pelo que não terão pontuações.
As colunas e as regras têm uma relação muitos para muitos, a mesma regra pode ser aplicada a muitas colunas e muitas regras podem ser aplicadas à mesma coluna. Pode ver o padrão de tendência de cada regra ao ver a Linha de tendência no painel Esquema .
As tendências de classificação de qualidade de dados ao nível do ativo estão disponíveis para as últimas 50 execuções. Esta tendência de classificação de qualidade ajuda os responsáveis pela qualidade dos dados a monitorizar a tendência e as flutuações da qualidade dos dados mês a mês. A qualidade dos dados também pode acionar alertas para cada análise de qualidade de dados se a classificação de qualidade não corresponder ao limiar ou às expectativas da empresa.
A classificação global é a média de todas as regras de produção definidas no recurso. A classificação global ao nível do recurso também é agregada ao nível do produto de dados e ao nível do domínio de governação. A classificação global destina-se a ser a definição oficial do estado do recurso de dados, do produto de dados e do domínio de governação no contexto da qualidade dos dados.
É criado um relatório de resumo para dimensões de qualidade de dados. Este relatório contém a classificação de qualidade dos dados para cada dimensão de qualidade dos dados. A classificação global do domínio de governação também é publicada neste relatório. Pode procurar a classificação de qualidade para cada domínio de governação, produto de dados e recursos de dados deste relatório do Power BI.
Observação
As dimensões de Qualidade dos Dados são termos reconhecidos utilizados pelos profissionais de dados para descrever uma funcionalidade de dados que pode ser medida ou avaliada em relação às normas definidas para quantificar o nível de qualidade dos dados que estamos a utilizar para gerir o nosso negócio.