Fabric Lakehouse 数据资产的数据质量
Fabric OneLake 是整个组织的单个统一逻辑数据湖。 数据湖处理来自各种源的大量数据。 与 Microsoft OneDrive 一样,OneLake 自动附带每个 Microsoft Fabric 租户,并且旨在成为所有分析数据的单个位置。 OneLake 为客户带来:
- 整个组织的一个数据湖
- 一个用于多个分析引擎的数据副本
OneLake 旨在从单个数据副本中为你提供最大的价值,而无需数据移动或重复。 不再需要复制数据,只需将其用于另一个引擎或打破孤岛,以便可以使用来自其他源的数据来分析数据。 可以使用 Microsoft Purview 对结构数据资产进行编目,并衡量数据质量,以治理和推动改进作。
可以使用快捷方式来引用存储在其他文件位置中的数据。 这些文件位置可以位于同一工作区中,也可以位于不同工作区中、OneLake 中,也可以位于 Azure Data Lake Storage (ADLS) 、Amazon Web Services (AWS) S3 或 Dataverse(即将推出更多目标位置)的 OneLake 外部。 数据源位置并不重要,OneLake 快捷方式使文件和文件夹看起来就像在本地存储一样。 当团队在单独的工作区中独立工作时,可以使用快捷方式将不同业务组和域中的数据合并到虚拟数据产品中,以满足用户的特定需求。
可以使用镜像将来自各种源的数据一起引入 Fabric。 Fabric 中的镜像是一种低成本、低延迟的解决方案,用于将各种系统中的数据汇集到单个分析平台中。 可以连续将现有数据资产直接复制到 Fabric 的 OneLake 中,包括来自 Azure SQL Database、Azure Cosmos DB 和 Snowflake 的数据。 借助 OneLake 中可查询格式的最新数据,现在可以在 Fabric 中使用所有不同的服务。 例如,使用 Spark 运行分析、执行笔记本、数据工程、通过 Power BI 报表进行可视化等。 然后,可以在 Fabric 的任意位置使用 Delta 表,使用户能够加速他们进入 Fabric 的过程。
注册 Fabric OneLake
若要配置数据映射扫描,需要首先注册要扫描的数据源。 若要扫描 Fabric 工作区,将 Fabric 租户注册为数据源的现有体验没有变化。 若要注册新的数据源,请执行以下步骤:
- 在 Microsoft Purview 门户中,转到 “数据映射”。
- 选择“注册”。
- 在 “注册 源”上,选择“ 构造”。
设置数据映射扫描
若要扫描 Lakehouse 子结构,数据映射中设置扫描的现有体验没有变化。 还有另一个步骤是向扫描凭据授予至少在 Fabric 工作区中具有 “参与者” 角色,以便从支持的文件格式中提取架构信息。
目前仅支持服务主体作为身份验证方法。 MSI 支持仍在积压中。
为 Fabric Lakehouse 扫描设置连接
将 Fabric Lakehouse 注册为源后,可以从数据映射中已注册的数据源列表中选择“构造”,然后选择“ 新建扫描”。 添加 数据源 ID,然后按照以下步骤作:
创建安全组和服务主体
请确保将此服务主体和 Purview 托管标识添加到此安全组,然后提供此安全组。
将安全组与 Fabric 租户关联
- 登录到 Fabric 管理门户。
- 选择“租户设置”页。 需要是 Fabric 管理员才能查看租户设置页。
- 选择“管理员 API 设置>允许服务主体使用只读管理 API”。
- 选择“特定安全组”。
- 选择“管理员 API 设置>使用详细元数据增强管理员 API 响应”和“使用 DAX 和混合表达式>增强管理员 API 响应”启用切换以允许Microsoft Purview 数据映射在其扫描过程中自动发现 Fabric 数据集的详细元数据。 更新 Fabric 租户上的管理员 API 设置后,请等待大约 15 分钟,然后注册扫描和测试连接。
为此安全组提供管理员 API 设置只读 API 权限。
将 SPN 添加到 “凭据” 字段。
添加 Azure 资源名称。
添加 租户 ID。
添加 服务主体 ID。
添加密钥保管库连接。
添加 机密名称。
完成数据映射扫描后,在 统一目录 中找到 Lakehouse 实例。
- 在 Microsoft Purview 门户中,打开统一目录。
- 依次选择“ 发现”、“ 数据资产”。
- 在 “数据资产 ”页上,选择“ Microsoft构造”。
- 选择“ 构造工作区”,然后从列表中选择一个工作区。
- 在工作区的页面上,在 “项名称”下找到 Lakehouse 实例。
浏览 Lakehouse 表:
- 在工作区页上,选择项名称 “表”。
- 选择 项名称下列出的 Lakehouse 表资产。
- 查看资产的详细信息页,查找架构、世系和属性等元数据。
Fabric Lakehouse 数据质量扫描先决条件
- 快捷方式、镜像或以增量格式将数据加载到 Fabric Lakehouse。
重要
如果已通过镜像或快捷方式将新表、文件或新数据集添加到 Fabric Lakehouse,则需要运行数据映射范围扫描以编录这些新数据集,然后将这些数据资产添加到数据产品以进行数据质量评估。
- 向 Purview MSI 的工作区授予参与者权限
- 将 Lakehouse 中的扫描数据资产添加到治理域的数据产品。 在统一目录的数据产品页面上,找到“数据资产”,然后选择“添加数据资产”。 只能对与治理域下的数据产品关联的数据资产执行数据分析和数据质量扫描。
对于数据分析和数据质量扫描,需要创建数据源连接,因为使用不同的连接器来连接数据源并扫描数据以捕获数据质量事实和维度。 若要设置连接,请执行以下作:
在“统一目录”中,依次选择“运行状况管理”、“数据质量”。
选择治理域,然后从“管理”下拉列表中选择“Connections”。
选择“ 新建 ”以打开“连接配置”页。
添加连接显示名称和说明。
添加源类型 Fabric。
添加 租户 ID。
添加 工作区 ID
添加 Lakehouse ID
Microsoft Purview MSI 添加凭据 - 。
测试连接以确保配置的连接成功。
重要
- 对于数据质量扫描,Microsoft Purview MSI 必须具有对 Fabric 工作区参与者访问权限才能连接 Fabric 工作区。 若要授予参与者访问权限,请打开 Fabric 工作区,选择三个点 (...) ,选择“工作区访问权限”,然后选择“添加人员或组”,然后将 Purview MSI 添加为参与者。
- 结构表必须采用 Delta 格式或 Iceberg 格式。
分析和数据质量 (DQ) 扫描 Fabric Lakehouse 中的数据
成功完成连接设置后,可以在 Fabric Lakehouse 中分析、创建和应用规则,并运行数据质量 (DQ) 扫描数据。 遵循下面所述的分步指南:
- 将 Lakehouse 表关联到数据产品进行策展、发现和订阅。 了解如何 创建和管理数据产品。
- Profile Fabric Lakehouse 表。 了解如何 为数据资产配置和运行数据分析。
- 配置并运行数据质量扫描以测量 Fabric Lakehouse 表的数据质量。 了解如何 配置和运行数据质量扫描。
重要
- 确保数据采用 Delta 格式或 Iceberg 格式。
- 确保数据映射扫描成功运行。 否则,请重新运行扫描。
限制
Parquet 文件的数据质量旨在支持:
- 包含 Parquet 部件文件的目录。 例如: ./Sales/{Parquet Part Files}。 完全限定的名称必须跟在 后面
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
。 请确保目录/子目录结构中没有 {n} 模式;它必须是指向 {SparkPartitions} 的直接 FQN。 - 包含已分区 Parquet 文件的目录,按数据集中的列分区,例如按年和月分区的销售数据。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
这两种基本方案都支持提供一致的 parquet 数据集架构。 限制:它设计为或不支持具有 Parquet 文件的目录的 N 个任意层次结构。 我们建议客户以 (1) 或 (2) 构造结构呈现数据。 因此,建议客户遵循支持的 parquet 标准或将其数据迁移到 ACID 兼容的增量格式。
提示
对于数据映射
- 确保 SPN 具有工作区权限。
- 确保扫描连接使用 SPN。
- 如果首次设置 Lakehouse 扫描,建议运行完全扫描。
- 检查引入的资产是否已更新/刷新
统一目录
- DQ 连接需要使用 MSI 凭据。
- 理想情况下,为首次测试 Lakehouse 数据 DQ 扫描创建新的数据产品
- 添加引入的数据资产,检查更新数据资产。
- 尝试运行配置文件,如果成功,请尝试运行 DQ 规则。 如果未成功,请尝试刷新资产架构 (架构> 管理导入架构)
- 一些用户还必须创建新的 Lakehouse 和示例数据,以便检查一切从头开始运行。 在某些情况下,使用以前在数据映射中引入的资产的体验并不一致。