配置和运行数据质量扫描

数据质量扫描根据应用的数据 质量规则查看数据 资产,并生成分数。 数据专员可以使用该分数来评估数据运行状况,并解决可能降低数据质量的任何问题。

先决条件

  • 若要运行和计划数据质量评估扫描,用户必须具有 数据质量专员角色
  • 目前,可以将 Microsoft Purview 帐户设置为允许公共访问或托管 vNet 访问,以便可以运行数据质量扫描。

数据质量生命周期

数据质量扫描是数据资产的数据质量生命周期的第七步。 前面的步骤包括:

  1. 在 统一目录 中分配用户 () 数据质量专员权限,以使用所有数据质量功能。
  2. 在Microsoft Purview 数据映射中注册扫描数据源。
  3. 将数据资产添加到数据产品
  4. 设置数据源连接,以便为数据质量评估准备源
  5. 为数据源中的资产配置和运行数据分析。
    1. 分析完成后,浏览数据资产中每列的结果以了解数据的当前结构和状态。
  6. 根据分析结果设置数据质量规则,并将其应用于数据资产。

支持的多云数据源

  • Azure Data Lake Storage (ADLS Gen2)
    • 文件类型:Delta Parquet 和 Parquet
  • Azure SQL 数据库
  • OneLake 中的 Fabric 数据资产包括快捷方式和镜像数据资产。 仅 Lakehouse 增量表和 parquet 文件支持数据质量扫描。
    • 镜像数据资产:CosmosDB、Snowflake Azure SQL
    • 快捷方式数据资产:AWS S3、GCS、AdlsG2 和 dataverse
  • Azure Synapse无服务器和数据仓库
  • Azure Databricks Unity 目录
  • Snowflake
  • Google Big Query (Private Preview)

重要

Parquet 文件的数据质量旨在支持:

  1. 包含 Parquet 部件文件的目录。 例如: ./Sales/{Parquet Part Files}。 完全限定的名称必须跟在 后面 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 请确保目录/子目录结构中没有 {n} 模式,而必须是指向 {SparkPartitions} 的直接 FQN。
  2. 包含已分区 Parquet 文件的目录,按数据集中的列分区,例如按年份和月份分区的销售数据。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

这两个基本方案都支持提供一致的 parquet 数据集架构。
限度: 它不设计为或将不支持具有 Parquet 文件的目录的 N 个任意层次结构。 我们建议客户以 (1) 或 (2) 构造结构呈现数据。

支持的身份验证方法

目前,Microsoft Purview 只能使用 托管标识 作为身份验证选项运行数据质量扫描。 数据质量服务在 Apache Spark 3.4Delta Lake 2.4 上运行。 有关受支持区域的详细信息,请参阅 数据质量概述

重要

如果数据源上更新了架构,则必须在运行数据质量扫描之前重新运行数据映射扫描。

运行数据质量扫描

  1. 配置与 要扫描的资产的数据质量的数据源连接(如果尚未创建)。

  2. 从Microsoft Purview 统一目录,选择“运行状况管理”菜单和数据质量子菜单。

  3. 从列表中选择 治理域

    治理域和数据产品的屏幕截图。

  4. 选择 数据产品 以评估链接到该产品 的数据资产的数据 质量。

    选择数据产品的数据资产的屏幕截图。

  5. 选择数据产品可转到数据质量 概述 页。 可以通过在此页上选择“ 规则 ”菜单来浏览现有数据质量规则并添加新规则。 可以通过从此页面选择“架构”菜单来浏览数据资产的 架构

    数据质量扫描概述页的屏幕截图。

  6. 浏览已添加到扫描所选资产的规则,并在 “状态” 列中将其打开或关闭。

    数据质量规则页的屏幕截图。

  7. 通过选择概述页上的 “运行质量扫描 ”按钮来运行质量扫描。

    数据质量概述页的屏幕截图,其中突出显示了“运行质量扫描”按钮。

  8. 扫描正在运行时, 可以从治理域中的数据质量监视页跟踪其进度

计划数据质量扫描

尽管可以通过选择“ 运行质量扫描 ”按钮来临时运行数据质量扫描,但在生产方案中,源数据很可能不断更新,因此我们希望确保定期监视其数据质量,以检测任何问题。 为了能够管理定期更新的质量扫描,我们可以自动执行扫描过程。

  1. 从Microsoft Purview 统一目录,选择“运行状况管理”菜单和数据质量子菜单。

  2. 从列表中选择 治理域

  3. 从页面右侧选择“ 管理 ”按钮,然后选择“ 计划扫描”。

    治理域的数据质量页的屏幕截图,其中突出显示了“计划扫描”按钮。

  4. “创建计划扫描 ”页上填写表单。 为要设置计划的源添加名称和说明

    “创建计划扫描页概述”选项卡的屏幕截图。

  5. 选择 继续

  6. 在“ 范围 ”选项卡上,选择单个数据产品和资产,或整个治理域的所有数据产品和数据资产。

    “创建计划扫描页范围”选项卡的屏幕截图。

  7. 选择 继续

  8. 根据首选项设置计划,然后选择“ 继续”。

    “创建计划的扫描页计划”选项卡的屏幕截图。

  9. 在“审阅”选项卡上,选择“保存 (”或“保存并运行”以立即测试) 完成计划数据质量评估扫描。

    “创建计划扫描页审阅”选项卡的屏幕截图。

  10. 可以在“扫描”选项卡下的 “数据质量作业监视”页上监视 计划的 扫描

删除以前的数据质量扫描

  1. 从Microsoft Purview 统一目录,选择“运行状况管理”菜单和数据质量子菜单。
  2. 从列表中选择 治理域
  3. 选择页面顶部的省略号 (“...”) “按钮。
  4. 选择“ 删除数据质量数据 ”以删除数据质量运行的历史记录。

注意

建议仅将此删除用于测试运行、出错的数据质量运行或从数据产品中删除数据资产的情况。

如果要从数据产品中删除数据资产,如果该数据资产具有数据质量分数,首先需要删除数据质量分数,然后从数据产品中删除数据资产。

重要

如果格式在源系统中是标准且正确,则增量格式主要是自动检测的。 若要扫描 Parquet 或 iceberg 文件格式以获取数据质量评分,需要将数据资产类型更改为 Parquet 或 iceberg。 如以下屏幕截图所示,如果数据资产文件格式不是 delta,请更改默认数据资产类型 *Parquet 或其他支持的格式。 在配置数据质量扫描作业之前,必须完成此更改。

资产类型选择的屏幕截图。

后续步骤