配置和运行数据质量扫描
数据质量扫描根据应用的数据 质量规则查看数据 资产,并生成分数。 数据专员可以使用该分数来评估数据运行状况,并解决可能降低数据质量的任何问题。
先决条件
- 若要运行和计划数据质量评估扫描,用户必须具有 数据质量专员角色。
- 目前,可以将 Microsoft Purview 帐户设置为允许公共访问或托管 vNet 访问,以便可以运行数据质量扫描。
数据质量生命周期
数据质量扫描是数据资产的数据质量生命周期的第七步。 前面的步骤包括:
- 在 统一目录 中分配用户 () 数据质量专员权限,以使用所有数据质量功能。
- 在Microsoft Purview 数据映射中注册和扫描数据源。
- 将数据资产添加到数据产品
- 设置数据源连接,以便为数据质量评估准备源。
-
为数据源中的资产配置和运行数据分析。
- 分析完成后,浏览数据资产中每列的结果以了解数据的当前结构和状态。
- 根据分析结果设置数据质量规则,并将其应用于数据资产。
支持的多云数据源
- Azure Data Lake Storage (ADLS Gen2)
- 文件类型:Delta Parquet 和 Parquet
- Azure SQL 数据库
- OneLake 中的 Fabric 数据资产包括快捷方式和镜像数据资产。 仅 Lakehouse 增量表和 parquet 文件支持数据质量扫描。
- 镜像数据资产:CosmosDB、Snowflake Azure SQL
- 快捷方式数据资产:AWS S3、GCS、AdlsG2 和 dataverse
- Azure Synapse无服务器和数据仓库
- Azure Databricks Unity 目录
- Snowflake
- Google Big Query (Private Preview)
重要
Parquet 文件的数据质量旨在支持:
- 包含 Parquet 部件文件的目录。 例如: ./Sales/{Parquet Part Files}。 完全限定的名称必须跟在 后面
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
。 请确保目录/子目录结构中没有 {n} 模式,而必须是指向 {SparkPartitions} 的直接 FQN。 - 包含已分区 Parquet 文件的目录,按数据集中的列分区,例如按年份和月份分区的销售数据。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
这两个基本方案都支持提供一致的 parquet 数据集架构。
限度: 它不设计为或将不支持具有 Parquet 文件的目录的 N 个任意层次结构。
我们建议客户以 (1) 或 (2) 构造结构呈现数据。
支持的身份验证方法
目前,Microsoft Purview 只能使用 托管标识 作为身份验证选项运行数据质量扫描。 数据质量服务在 Apache Spark 3.4 和 Delta Lake 2.4 上运行。 有关受支持区域的详细信息,请参阅 数据质量概述。
重要
如果数据源上更新了架构,则必须在运行数据质量扫描之前重新运行数据映射扫描。
运行数据质量扫描
从Microsoft Purview 统一目录,选择“运行状况管理”菜单和数据质量子菜单。
从列表中选择 治理域 。
选择 数据产品 以评估链接到该产品 的数据资产的数据 质量。
选择数据产品可转到数据质量 概述 页。 可以通过在此页上选择“ 规则 ”菜单来浏览现有数据质量规则并添加新规则。 可以通过从此页面选择“架构”菜单来浏览数据资产的 架构 。
浏览已添加到扫描所选资产的规则,并在 “状态” 列中将其打开或关闭。
通过选择概述页上的 “运行质量扫描 ”按钮来运行质量扫描。
扫描正在运行时, 可以从治理域中的数据质量监视页跟踪其进度。
计划数据质量扫描
尽管可以通过选择“ 运行质量扫描 ”按钮来临时运行数据质量扫描,但在生产方案中,源数据很可能不断更新,因此我们希望确保定期监视其数据质量,以检测任何问题。 为了能够管理定期更新的质量扫描,我们可以自动执行扫描过程。
从Microsoft Purview 统一目录,选择“运行状况管理”菜单和数据质量子菜单。
从列表中选择 治理域 。
从页面右侧选择“ 管理 ”按钮,然后选择“ 计划扫描”。
在 “创建计划扫描 ”页上填写表单。 为要设置计划的源添加名称和说明。
选择 继续。
在“ 范围 ”选项卡上,选择单个数据产品和资产,或整个治理域的所有数据产品和数据资产。
选择 继续。
根据首选项设置计划,然后选择“ 继续”。
在“审阅”选项卡上,选择“保存 (”或“保存并运行”以立即测试) 完成计划数据质量评估扫描。
可以在“扫描”选项卡下的 “数据质量作业监视”页上监视 计划的 扫描 。
删除以前的数据质量扫描
- 从Microsoft Purview 统一目录,选择“运行状况管理”菜单和数据质量子菜单。
- 从列表中选择 治理域 。
- 选择页面顶部的省略号 (“...”) “按钮。
- 选择“ 删除数据质量数据 ”以删除数据质量运行的历史记录。
注意
建议仅将此删除用于测试运行、出错的数据质量运行或从数据产品中删除数据资产的情况。
如果要从数据产品中删除数据资产,如果该数据资产具有数据质量分数,首先需要删除数据质量分数,然后从数据产品中删除数据资产。
重要
如果格式在源系统中是标准且正确,则增量格式主要是自动检测的。 若要扫描 Parquet 或 iceberg 文件格式以获取数据质量评分,需要将数据资产类型更改为 Parquet 或 iceberg。 如以下屏幕截图所示,如果数据资产文件格式不是 delta,请更改默认数据资产类型 *Parquet 或其他支持的格式。 在配置数据质量扫描作业之前,必须完成此更改。
相关内容
- Fabric 数据资产的数据质量
- Fabric 镜像数据源的数据质量
- Fabric 快捷方式数据源的数据质量
- Azure Synapse无服务器和数据仓库的数据质量
- Azure Databricks Unity目录的数据质量
- Snowflake 数据源的数据质量
- Google Big Query 的数据质量
后续步骤
- 监视数据质量扫描
- 查看扫描结果 以评估数据产品的当前数据质量。
- 为数据质量扫描结果配置警报