Microsoft Purview 数据质量概述

Microsoft Purview 数据质量是一种全面的解决方案,它使治理域和数据所有者能够评估和监督其数据生态系统的质量,从而促进有针对性的改进操作。 在当今的 AI 驱动环境中,数据的可靠性直接影响 AI 驱动的见解和建议的准确性。 如果没有可信数据,就有可能削弱对 AI 系统的信任并阻碍其采用。

数据质量差或数据结构不兼容可能会阻碍业务流程和决策能力。 Microsoft Purview 数据质量通过为用户提供使用无代码/低代码规则(包括现 (OOB) 规则和 AI 生成的规则)评估数据质量的能力来应对这些挑战。 这些规则在列级别应用并聚合,以提供数据资产、数据产品和治理域级别的分数,确保每个域中数据质量的端到端可见性。

Microsoft Purview 数据质量还包含 AI 支持的数据分析功能,推荐用于分析的列,同时允许人工干预来优化这些建议。 此迭代过程不仅提高了数据分析的准确性,还有助于持续改进基础 AI 模型。

通过应用Microsoft Purview 数据质量,组织可以有效地衡量、监视和提高其数据资产的质量,提高 AI 驱动的见解的可靠性,并增强对基于 AI 的决策过程的信心。

数据质量生命周期

  1. 在 统一目录 中分配用户 () 数据质量专员权限,以使用所有数据质量功能。
  2. 在Microsoft Purview 数据映射中注册扫描数据源。
  3. 将数据资产添加到数据产品
  4. 设置数据源连接,以便为数据质量评估准备源
  5. 为数据源中的资产配置和运行数据分析。
    1. 分析完成后,浏览数据资产中每列的结果以了解数据的当前结构和状态。
  6. 根据分析结果设置数据质量规则,并将其应用于数据资产。
  7. 在数据产品上配置并运行数据质量扫描 ,以评估数据产品中所有受支持资产的质量。
  8. 查看扫描结果 以评估数据产品的当前数据质量。
  9. 在数据资产的生命周期中定期重复步骤 5-8,以确保其保持质量。
  10. 持续监视数据质量
    1. 查看数据质量操作 以识别和解决问题。
    2. 设置数据质量通知 以提醒你出现质量问题。

支持的数据质量区域

以下区域当前支持Microsoft Purview 数据质量

支持的多云数据源

  • Azure Data Lake Storage (ADLS Gen2)
    • 文件类型:Delta Parquet 和 Parquet
  • Azure SQL 数据库
  • OneLake 中的结构数据资产,包括快捷方式和镜像数据资产。 仅 Lakehouse 增量表和 parquet 文件支持数据质量扫描。
    • 镜像数据资产:CosmosDB、Snowflake Azure SQL
    • 快捷方式数据资产:AWS S3、GCS、AdlsG2 和 dataverse
  • Azure Synapse无服务器和数据仓库
  • Azure Databricks Unity 目录
  • Snowflake
  • Google Big Query (Private Preview)

重要

Parquet 文件的数据质量旨在支持:

  1. 包含 Parquet 部件文件的目录。 例如: ./Sales/{Parquet Part Files}。 完全限定的名称必须跟在 后面 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 请确保目录/子目录结构中没有 {n} 模式,而必须是指向 {SparkPartitions} 的直接 FQN。
  2. 包含已分区 Parquet 文件的目录,按数据集中的列分区,例如按年份和月份分区的销售数据。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

这两个基本方案都支持提供一致的 parquet 数据集架构。
限度: 它不设计为或将不支持具有 Parquet 文件的目录的 N 个任意层次结构。 我们建议客户以 (1) 或 (2) 构造结构呈现数据。

目前,Microsoft Purview 只能使用 托管标识 作为身份验证选项运行数据质量扫描。 数据质量服务在 Apache Spark 3.4Delta Lake 2.4 上运行

数据质量功能

  • 数据源连接配置
    • 配置连接以允许 Purview DQ SaaS 应用程序对质量扫描和分析的数据具有读取访问权限。
    • MS Purview 使用托管标识作为身份验证选项
  • 数据分析
    • 已启用 AI 的数据分析体验
    • 行业标准统计快照 (分布,最小值,最大值,标准偏差,唯一性,完整性,重复,...)
    • 向下钻取列级分析度量值。
  • 数据质量规则
    • 用于衡量六个行业标准的现成规则数据质量维度 (完整性、一致性、一致性、准确性、新鲜度和唯一性)
    • 自定义规则创建功能包括现用函数和表达式值的数量。
    • 具有 AI 集成体验的自动生成的规则
  • 数据质量扫描
    • 选择规则并将其分配给用于数据质量扫描的列。
    • 在实体/表级别应用数据新鲜度规则以度量数据新鲜度 SLA。
    • 计划时间段的数据质量扫描作业 (每小时、每天、每周、每月等 )
  • 数据质量作业监视
    • 启用监视数据质量作业状态 (活动、已完成、失败等 )
    • 启用浏览 DQ 扫描历史记录。
  • 数据质量评分
    • 规则级别的数据质量分数 (应用于列的规则的质量分数)
    • 数据资产、数据产品和治理域的数据质量分数 (一个治理域可以有多个数据产品,一个数据产品可以有多个数据资产,一个数据资产可以有多个数据列)
  • 关键数据元素的数据质量 (CDE)
    • 这是 Purview 数据质量的关键功能之一,它能够将数据质量规则应用于 CDE 的逻辑构造,然后将这些规则向下传播到构成它们的物理数据元素。 通过在 CES 级别定义数据质量规则,组织可以建立 CDE 必须满足的特定标准和阈值来保持其质量
  • 数据质量警报
    • 配置警报以在数据质量阈值未达到预期时通知数据所有者和数据专员。
    • 配置电子邮件别名或通讯组以发送有关数据质量问题的通知。
  • 数据质量操作
    • DQ 的操作中心包含解决 DQ 异常状态的操作,包括 DQ 专员的诊断查询,以对要针对每个异常状态修复的特定数据进行归零。
  • 数据质量托管虚拟网络
    • 由数据质量管理的虚拟网络,通过专用终结点连接到 Azure 数据源。

限制

  • Unity目录的 Google Big Query、Snowflake 和 Azure 数据块不支持 vNet。

后续步骤

  1. 在 统一目录 中分配用户 () 数据质量专员权限,以使用所有数据质量功能。
  2. 设置数据源连接,以便为数据质量评估准备源
  3. 为数据源中的资产配置和运行数据分析。