管理关键数据元素的数据质量 (预览)

关键数据元素 (CDE) 是数据源中跨表的重要列的逻辑分组,使你能够战略性地将治理工作集中在效果最大的位置。

Microsoft Purview 数据质量提供了一个集成解决方案,用于测量关键数据元素 (CDE) 的质量,使组织能够确保这些关键数据元素满足准确性、完整性、一致性和完整性所需的标准。

组织可以建立特定的质量阈值,CES 必须满足这些阈值才能保持其质量。 这些阈值在逻辑 CDE 级别应用,但会向向构成 CDE 的所有单独列。 这些规则可以涵盖数据质量的各个方面,包括验证、清理、标准化和扩充。 例如:数据质量规则可能指定客户地址必须标准化为特定格式,或者员工 ID 必须遵循特定模式。

将数据质量规则应用于 CES 后,Microsoft Purview 数据质量系统地评估基础物理数据元素,以评估它们对这些规则的符合性。 通过使用 Purview 数据质量的集成方法,组织可以主动监视和管理其关键数据元素的质量,确保它们保持可靠、准确且适合用途。 这不仅可增强决策流程,还有助于缓解与数据错误或不一致相关的风险,最终实现更好的业务成果。

支持的资产类型

  • Azure Data Lake Storage (ADLS Gen2)
    • 文件类型:Delta 和 Parquet
  • Azure SQL 数据库
  • OneLake 中的 Fabric 数据资产包括快捷方式和镜像数据资产。 仅 Lakehouse 增量表和 parquet 文件支持数据质量扫描。
    • 镜像数据资产:CosmosDB、Snowflake Azure SQL
    • 快捷方式数据资产:AWS S3、GCS、AdlsG2 和 dataverse
  • Azure Synapse无服务器和数据仓库
  • Azure Databricks Unity 目录
  • Snowflake
  • Google Big Query (Private Preview)

CES 的可用数据质量规则

Microsoft Purview 数据质量为 CES 启用以下规则的配置。 选择规则将带你到常规 数据质量规则一文 了解详细信息。

Rule 定义
唯一值 确认列中的值是唯一的。
数据类型匹配 确认列中的值符合其数据类型要求。
空/空白字段 在应存在值的列中查找空白和空字段。

配置 CDE 的数据质量

  1. 如果尚未 创建关键数据元素 , (CDE) 并 添加列

  2. 通过以下方式打开 CDE:

    1. 打开Microsoft Purview 统一目录并选择“数据管理”下拉列表和“治理域”子菜单。
    2. 从列表中选择 治理域
    3. 选择“ 关键数据元素 ”磁贴。
    4. 从列表中选择关键数据元素。
  3. 在关键数据元素中选择“ 数据质量 ”选项卡。

    关键数据元素的新数据质量规则页的屏幕截图。

  4. 选择“新建规则”,将新 规则添加到关键数据元素。

  5. 选择要使用的 数据质量规则类型 ,然后选择“ 下一步”。

  6. 提供规则类型所需的详细信息。

  7. 选择是要将规则切换为 “关闭” 还是“ ”。

  8. 选择“创建”。

执行 CDE 的数据质量规则

为具有与 CDE 关联的列的可用数据资产运行数据质量扫描时,为该 CDE 配置的数据质量规则将生成分数。

  1. 与 CDE 关联的数据资产计划或运行数据质量扫描

  2. 监视执行数据质量扫描作业的进度,确保它完成时不会出现错误或中断。 检查从历史记录快照已成功运行应用的数据质量规则。

    显示关键数据元素规则的数据质量扫描结果的屏幕截图。

  3. 查看扫描作业的结果 ,根据应用的规则评估 CDE 数据资产的质量。

    关键数据元素的扫描结果的屏幕截图。

  4. 分析数据质量扫描作业的发现结果,以确定与 CDE 数据资产相关的任何问题、异常或改进领域。 这可能涉及清理、标准化或扩充数据以提高其质量。

后续步骤