Fabric Lakehouse 数据资产的数据质量 (个人预览版)
注意
Microsoft Purview 数据目录将其名称更改为 Microsoft Purview 统一目录。 所有功能将保持不变。 当新的 Microsoft Purview 数据治理体验在你的区域中正式发布时,你将看到名称更改。 检查你所在的区域的名称。
Fabric OneLake 是整个组织的单个统一逻辑数据湖。 data Lake 处理来自各种源的大量数据。 与 OneDrive 一样,OneLake 自动附带每个 Microsoft Fabric 租户,并且旨在成为所有分析数据的单个位置。 OneLake 为客户带来:
- 整个组织的一个数据湖
- 一个用于多个分析引擎的数据副本
OneLake 旨在从单个数据副本中为你提供最大的价值,而无需数据移动或重复。 不再需要复制数据,只需将其用于另一个引擎或打破孤岛,以便可以使用来自其他源的数据来分析数据。 可以使用 Microsoft Purview 对结构数据资产进行编目,并衡量数据质量,以治理和推动改进操作。
可以使用快捷方式来引用存储在其他文件位置中的数据。 这些文件位置可以位于同一工作区中,也可以位于不同工作区中、OneLake 内或位于 Azure Data Lake Storage (ADLS) 、AWS S3 或 Dataverse 的 OneLake 外部,即将推出更多目标位置。 数据源位置并不重要,OneLake 快捷方式使文件和文件夹看起来就像在本地存储一样。 当团队在单独的工作区中独立工作时,可以使用快捷方式将不同业务组和域中的数据合并到虚拟数据产品中,以满足用户的特定需求。
可以使用镜像将各种源的数据一起引入 Fabric 中的 Fabric 镜像是一种低成本、低延迟的解决方案,可将各种系统中的数据一起引入单个分析平台。 可以连续将现有数据资产直接复制到 Fabric 的 OneLake 中,包括来自 Azure SQL Database、Azure Cosmos DB 和 Snowflake 的数据。 借助 OneLake 中可查询格式的最新数据,现在可以在 Fabric 中使用所有不同的服务。 例如,使用 Spark 运行分析、执行笔记本、数据工程、通过 Power BI 报表进行可视化等。 然后,可以在 Fabric 的任意位置使用 Delta 表,使用户能够加速他们进入 Fabric 的过程。
配置数据映射扫描
若要配置数据映射扫描,需要注册要扫描的数据源。
注册 Fabric OneLake
对于扫描 Fabric 工作区,将 Fabric 租户注册为数据源的现有体验没有变化。 若要在数据目录中注册新数据源,请执行以下步骤:
- 在 Microsoft Purview 治理门户中导航到Microsoft Purview 帐户。
- 在左侧导航窗格中选择“数据映射”。
- 选择“注册”
- 在“注册源”上,选择“构造”
设置数据映射扫描
对于扫描 Lakehouse 子结构,Purview 中设置扫描的现有体验没有变化。 还有一个步骤是向扫描凭据授予至少在 Fabric 工作区中具有 “参与者” 角色,以从支持的文件格式中提取架构信息。
目前仅支持服务主体作为身份验证方法。 MSI 支持仍在积压中。 Lakehouse 扫描功能以个人预览版提供。 需要与 Microoft 帐户团队联系,以允许列出租户。
为 fabric lakehouse 扫描设置连接
将 fabric lakehouse 注册为源后,可以从已注册的数据源列表中选择 fabric,然后选择“ 新建扫描”。 添加连接详细信息,如以下屏幕截图中突出显示。
- 将 SPN 添加到 凭据 字段
- 添加 azure 资源名称。
- 添加 租户 ID
- 添加 服务主体 ID
- 添加密钥保管库连接
- 添加 机密名称
完成数据映射扫描后,从 Purview 数据目录找到 lakehouse 实例。
通过表类别浏览 lakehouse 表 。
Fabric Lakehouse 数据质量扫描先决条件
- 快捷方式、镜像或以增量格式将数据加载到 Fabric lakehouse。
重要
如果已通过 morroring 或快捷方式将新表、文件或新数据集添加到 Fabric lakehouse,则需要先运行数据映射范围扫描以编录这些新数据集,然后再将这些数据资产添加到数据产品进行数据质量评估。
- 向 Purview MSI 的工作区授予参与者权限
- 将 lakehouse 中的扫描数据资产添加到治理域的数据产品。 只能对与治理域下的数据产品关联的数据资产执行数据事件探查和 DQ 扫描。
对于数据分析和数据质量扫描,我们需要创建数据源连接,因为我们使用不同的连接器来连接数据源,并扫描数据以捕获数据质量事实和维度。 若要设置连接,请执行以下操作:
转到“运行状况管理 > ”“数据质量 > ”“选择治理域 > ”“选择管理”选项卡 > “选择连接”。
选择 “+ 新建”选项卡 以打开连接配置页
添加连接“显示名称”和“说明”
添加源类型 Fabric
添加 租户 ID
Microsoft Purview MSI 添加凭据 -
测试连接以确保配置的连接成功。
重要
- 对于 DQ 扫描,purview MSI 必须具有对 Fabric 工作区参与者访问权限才能连接 Fabric 工作区。 若要授予参与者访问权限,请打开构造工作区>,选择三个点 (...) > 选择工作区访问权限>添加人员或组>将 Purview MSI 添加为参与者
- 结构表必须采用增量格式。
- Fabric Lakehouse DQ 扫描功能以 个人预览版提供。 若要使用此功能,请联系 Microsoft accout 团队或客户支持团队,将租户列入允许列表。 需要提供以下信息才能列出:租户 ID、组织名称、Purview 帐户名称、Purview 帐户 ID、Azure 区域和 Azure 订阅 ID。
分析和数据质量 (DQ) 扫描 Fabric Lakehouse 中的数据
成功完成连接设置后,可以在 Fabric Lakehouse 中分析、创建和应用规则,并运行数据质量 (DQ) 扫描数据。 遵循下面所述的分步指南:
- 将 Lakehouse 表关联到数据产品,以便进行策展、发现和订阅。 有关更多详细信息,请参阅文档 - 如何创建和管理数据产品
- Profile Fabric lakehouse 表。 有关更多详细信息,请参阅文档 - 如何配置和运行数据的数据分析
- 配置并运行数据质量扫描以测量 Fabric lakehouse 表的数据质量。 有关更多详细信息,请参阅文档 - 如何配置和运行数据质量扫描
重要
- 确保数据采用增量格式。
- 确保数据映射扫描成功运行,如果未成功,则重新运行数据映射扫描。
限制
对 fabric Lakehouse 的 Purview 数据映射支持以个人预览版提供。 我们需要允许将 purview 租户列出到 Purview 数据映射,并让 Fabric OneLake 使用 Purview DQ 启用 Fabric Lakehouse 表 DQ 扫描。 请联系Microsoft帐户团队,将租户列入 Fabric Lakehouse 支持列表。
Parquet 文件的数据质量旨在支持:
- 包含 Parquet 部件文件的目录。 例如: ./Sales/{Parquet Part Files}。 完全限定的名称必须跟在 后面
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
。 请确保目录/子目录结构中没有 {n} 模式,而必须是指向 {SparkPartitions} 的直接 FQN。 - 包含已分区 Parquet 文件的目录,按数据集中的列分区,例如按年和月分区的销售数据。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
这两种基本方案都支持提供一致的 parquet 数据集架构。 限制:它设计为或不支持具有 Parquet 文件的目录的 N 个任意层次结构。 我们建议客户以 (1) 或 (2) 构造结构呈现数据。 因此,建议客户遵循支持的 parquet 标准或将其数据迁移到 ACID 兼容的增量格式。
提示
对于数据映射
- 确保 SPN 具有工作区权限。
- 确保扫描连接使用 SPN。
- 如果你是第一次设置 lakehouse 扫描,建议运行完全扫描。
- 检查引入的资产是否已更新/刷新
数据目录
- DQ 连接需要使用 MSI 凭据。
- 理想情况下,为首次测试 lakehouse 数据 DQ 扫描创建新的数据产品
- 添加引入的数据资产,检查更新数据资产。
- 尝试运行配置文件,如果成功,请尝试运行 DQ 规则。 如果未成功,请尝试刷新资产架构 (架构> 管理导入架构)
- 一些用户还必须创建新的 Lakehouse 和示例数据,以便检查一切从头开始运行。 在某些情况下,使用以前在数据映射中引入的资产的体验是不一致的。