配置并运行数据质量扫描
数据质量扫描根据应用的数据 质量规则查看数据 资产,并生成分数。 数据专员可以使用该分数来评估数据运行状况,并解决可能降低数据质量的任何问题。
先决条件
- 若要运行和计划数据质量评估扫描,用户必须具有 数据质量专员角色。
- 目前,可以将 Microsoft Purview 帐户设置为允许公共访问或托管 vNet 访问,以便可以运行数据质量扫描。
数据质量生命周期
数据质量扫描是数据资产的数据质量生命周期的第七步。 前面的步骤包括:
- 在 统一目录 中分配用户 () 数据质量专员权限,以使用所有数据质量功能。
- 在Microsoft Purview 数据映射中注册和扫描数据源。
- 将数据资产添加到数据产品
- 设置数据源连接,以便为数据质量评估准备源。
-
为数据源中的资产配置和运行数据分析。
- 分析完成后,浏览数据资产中每列的结果以了解数据的当前结构和状态。
- 根据分析结果设置数据质量规则,并将其应用于数据资产。
支持的多云数据源
浏览 支持的数据源文档 ,查看支持的数据源列表,包括用于数据分析和数据质量扫描的文件格式,支持和不使用 vNet 支持。
重要
Parquet 文件的数据质量旨在支持:
- 包含 Parquet 部件文件的目录。 例如: ./Sales/{Parquet Part Files}。 完全限定的名称必须跟在 后面
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
。 请确保目录/子目录结构中没有 {n} 模式,而必须是指向 {SparkPartitions} 的直接 FQN。 - 包含已分区 Parquet 文件的目录,按数据集中的列分区,例如按年份和月份分区的销售数据。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
支持这两种基本方案(提供一致的 parquet 数据集架构)。 限度: 它不设计为或不支持具有 Parquet 文件的目录的 N 个任意层次结构。 建议在 (1) 或 (2) 构造结构中呈现数据。
支持的身份验证方法
目前,Microsoft Purview 只能使用 托管标识 作为身份验证选项运行数据质量扫描。 数据质量服务在 Apache Spark 3.4 和 Delta Lake 2.4 上运行。 有关受支持区域的详细信息,请参阅 数据质量概述。
重要
- 如果数据源上更新了架构,则必须在运行数据质量扫描之前重新运行数据映射扫描。 还可以使用数据质量概述页中的架构导入功能。
- 托管 vNet 或专用终结点上运行的数据源不支持架构导入。
- Azure Databricks、Google BigQuery 和 Snowflake 不支持 vNet
运行数据质量扫描
配置与 要扫描的资产的数据源连接,以确保数据质量 (如果尚未这样做)。
从Microsoft Purview 统一目录,依次选择“运行状况管理”、“数据质量”。
从列表中选择 治理域 。
选择 数据产品 以评估链接到该产品 的数据资产的数据 质量。
选择数据资产的名称,这会转到“数据质量 概述 ”页。
可以通过选择“规则”来浏览现有数据质量规则并添加新 规则。 可以通过选择“架构”来浏览数据资产 的架构。 可以打开或关闭已添加的规则。
通过在概述页上选择“ 运行质量扫描”来运行质量扫描 。
扫描正在运行时, 可以从治理域中的数据质量监视页跟踪其进度。
计划数据质量扫描
尽管可以通过选择“ 运行质量扫描 ”按钮来临时运行数据质量扫描,但在生产方案中,源数据很可能不断更新,因此我们希望确保定期监视其数据质量,以检测任何问题。 为了能够管理定期更新的质量扫描,我们可以自动执行扫描过程。
从Microsoft Purview 统一目录,依次选择“运行状况管理”、“数据质量”。
从列表中选择 治理域 。
选择 “管理”,然后选择“ 计划的扫描”。
在 “创建计划扫描 ”页上填写表单。 为要设置计划的源添加名称和说明。
选择 继续。
在“ 范围 ”选项卡上,选择单个数据产品和资产,或整个治理域的所有数据产品和数据资产。
选择 继续。
根据首选项设置计划,然后选择“ 继续”。
在“ 审阅 ”选项卡上,选择“ 保存 (”或“ 保存并运行 ”以立即测试) 完成计划数据质量评估扫描。
可以在“扫描”选项卡下的 “数据质量作业监视”页上监视 计划的 扫描 。
删除以前的数据质量扫描和历史记录
从数据产品中删除数据资产时,如果该数据资产具有数据质量分数,则首先需要删除数据质量分数,然后从数据产品中删除数据资产。
删除数据质量历史记录数据时,会删除配置文件历史记录、数据质量扫描历史记录和数据质量规则,但不会删除数据质量作。
按照以下步骤删除以前的数据质量扫描:
- 从Microsoft Purview 统一目录,选择“运行状况管理”菜单和数据质量子菜单。
- 从列表中选择 治理域 。
- 选择页面右上角的省略号 (...) 。
- 选择“ 删除数据质量数据 ”以删除数据质量运行的历史记录。
注意
- 建议仅对测试运行、出错的数据质量运行或从数据产品中删除数据资产时使用 “删除数据质量 数据”。
- 我们最多存储 50 个数据质量分析和数据质量评估历史记录的快照。 如果要删除特定快照,请选择所需的历史记录运行,然后选择删除图标。
相关内容
- Fabric Data 资产的数据质量
- Fabric 镜像数据源的数据质量
- Fabric 快捷方式数据源的数据质量
- Azure Synapse无服务器和数据仓库的数据质量
- Azure Databricks Unity Catalog 的数据质量
- Snowflake 数据源的数据质量
- Google Big Query 的数据质量
后续步骤
- 监视数据质量扫描
- 查看扫描结果 以评估数据产品的当前数据质量。
- 为数据质量扫描结果配置警报