配置并运行数据质量扫描

数据质量扫描根据应用的数据 质量规则查看数据 资产,并生成分数。 数据专员可以使用该分数来评估数据运行状况,并解决可能降低数据质量的任何问题。

先决条件

  • 若要运行和计划数据质量评估扫描,用户必须具有 数据质量专员角色
  • 目前,可以将 Microsoft Purview 帐户设置为允许公共访问或托管 vNet 访问,以便可以运行数据质量扫描。

数据质量生命周期

数据质量扫描是数据资产的数据质量生命周期的第七步。 前面的步骤包括:

  1. 在 统一目录 中分配用户 () 数据质量专员权限,以使用所有数据质量功能。
  2. 在Microsoft Purview 数据映射中注册扫描数据源。
  3. 将数据资产添加到数据产品
  4. 设置数据源连接,以便为数据质量评估准备源
  5. 为数据源中的资产配置和运行数据分析。
    1. 分析完成后,浏览数据资产中每列的结果以了解数据的当前结构和状态。
  6. 根据分析结果设置数据质量规则,并将其应用于数据资产。

支持的多云数据源

浏览 支持的数据源文档 ,查看支持的数据源列表,包括用于数据分析和数据质量扫描的文件格式,支持和不使用 vNet 支持。

重要

Parquet 文件的数据质量旨在支持:

  1. 包含 Parquet 部件文件的目录。 例如: ./Sales/{Parquet Part Files}。 完全限定的名称必须跟在 后面 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 请确保目录/子目录结构中没有 {n} 模式,而必须是指向 {SparkPartitions} 的直接 FQN。
  2. 包含已分区 Parquet 文件的目录,按数据集中的列分区,例如按年份和月份分区的销售数据。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

支持这两种基本方案(提供一致的 parquet 数据集架构)。 限度: 它不设计为或不支持具有 Parquet 文件的目录的 N 个任意层次结构。 建议在 (1) 或 (2) 构造结构中呈现数据。

支持的身份验证方法

目前,Microsoft Purview 只能使用 托管标识 作为身份验证选项运行数据质量扫描。 数据质量服务在 Apache Spark 3.4Delta Lake 2.4 上运行。 有关受支持区域的详细信息,请参阅 数据质量概述

重要

  • 如果数据源上更新了架构,则必须在运行数据质量扫描之前重新运行数据映射扫描。 还可以使用数据质量概述页中的架构导入功能。
  • 托管 vNet 或专用终结点上运行的数据源不支持架构导入。
  • Azure Databricks、Google BigQuery 和 Snowflake 不支持 vNet

运行数据质量扫描

  1. 配置与 要扫描的资产的数据源连接,以确保数据质量 (如果尚未这样做)。

  2. 从Microsoft Purview 统一目录,依次选择“运行状况管理”、“数据质量”。

  3. 从列表中选择 治理域

  4. 选择 数据产品 以评估链接到该产品 的数据资产的数据 质量。

  5. 选择数据资产的名称,这会转到“数据质量 概述 ”页。

  6. 可以通过选择“规则”来浏览现有数据质量规则并添加新 规则。 可以通过选择“架构”来浏览数据资产 的架构。 可以打开或关闭已添加的规则。

  7. 通过在概述页上选择“ 运行质量扫描”来运行质量扫描

  8. 扫描正在运行时, 可以从治理域中的数据质量监视页跟踪其进度

计划数据质量扫描

尽管可以通过选择“ 运行质量扫描 ”按钮来临时运行数据质量扫描,但在生产方案中,源数据很可能不断更新,因此我们希望确保定期监视其数据质量,以检测任何问题。 为了能够管理定期更新的质量扫描,我们可以自动执行扫描过程。

  1. 从Microsoft Purview 统一目录,依次选择“运行状况管理”、“数据质量”。

  2. 从列表中选择 治理域

  3. 选择 “管理”,然后选择“ 计划的扫描”。

  4. “创建计划扫描 ”页上填写表单。 为要设置计划的源添加名称和说明

  5. 选择 继续

  6. 在“ 范围 ”选项卡上,选择单个数据产品和资产,或整个治理域的所有数据产品和数据资产。

  7. 选择 继续

  8. 根据首选项设置计划,然后选择“ 继续”。

  9. 在“ 审阅 ”选项卡上,选择“ 保存 (”或“ 保存并运行 ”以立即测试) 完成计划数据质量评估扫描。

可以在“扫描”选项卡下的 “数据质量作业监视”页上监视 计划的 扫描

删除以前的数据质量扫描和历史记录

从数据产品中删除数据资产时,如果该数据资产具有数据质量分数,则首先需要删除数据质量分数,然后从数据产品中删除数据资产。

删除数据质量历史记录数据时,会删除配置文件历史记录、数据质量扫描历史记录和数据质量规则,但不会删除数据质量作。

按照以下步骤删除以前的数据质量扫描:

  1. 从Microsoft Purview 统一目录,选择“运行状况管理”菜单和数据质量子菜单。
  2. 从列表中选择 治理域
  3. 选择页面右上角的省略号 (...) 。
  4. 选择“ 删除数据质量数据 ”以删除数据质量运行的历史记录。

注意

  • 建议仅对测试运行、出错的数据质量运行或从数据产品中删除数据资产时使用 “删除数据质量 数据”。
  • 我们最多存储 50 个数据质量分析和数据质量评估历史记录的快照。 如果要删除特定快照,请选择所需的历史记录运行,然后选择删除图标。

后续步骤