自助分析和见解 (预览版)
自助分析和见解是指数据、工具和平台,使业务用户可以独立访问、分析和生成见解。 Microsoft Purview 数据治理应用程序将元数据的域模型发布到 Fabric OneLake 和 AdlsG2 (Azure Data Lake 存储) ,允许客户通过自带工具和计算来分析和生成见解。 数据管理元数据的自助分析对于推动客户数据资产运行状况管理的持续改进以及通过实现数据资产见解和运行状况管理的民主化,在整个组织中促进数据驱动文化非常有用。
主要组件
- 数据模型: 包含域和维度详细信息的 3NF 模型
-
元数据: 数据治理元数据,包括:
- 治理域
- 数据产品
- 数据资产
- 术语表术语
- 订阅请求
- 数据质量规则
- 尺寸
- 数据质量事实 (通过计数和失败计数)
优点
- 授权: 使数据从业者、数据产品所有者、数据专员和分析师能够浏览数据治理元数据,并链接来自各种源的元数据来获取见解。
- 灵活性和效率: 除了在运行状况管理中现成的报告外,客户还可以创建自定义报告。
- 敏捷: 允许客户组织更快速地响应运行状况管理问题和修正。
- 经济高效: 减少了设置平台和生成工具的需求。 OneLake 中提供了所有数据,客户可以使用 OneLake 中的可用工具 (Fabric 语义模型、PBI 报告、数据流和笔记本) 。
当前可用的报表 (现)
下面是可用的现装报表。 这些报表不可自定义。
- 经典资产 - 按类型和集合及其策展状态概述资产。
- 经典目录采用 - 一目了然地了解如何使用统一目录。 术语表,提供术语及其状态快照。
- 经典分类 - 分类的资产和分类类型的概述。
- 经典数据管理 - 分类资产和分类类型的概述。
- 经典术语表 - 术语表术语的运行状况和使用。
- 经典敏感度标签 - 已应用敏感度标签的资产和应用的标签类型的概述。
- 数据治理 - 数据治理运行状况报告允许团队一目了然地跟踪运行状况进度,并确定需要更多工作的领域。
- 数据质量运行状况 - 数据质量维度和数据质量规则性能报告。
自助分析元数据的数据模型
3NF 域模型是关系数据库设计中的规范化过程的一部分,可确保数据库没有冗余和更新异常。 如果数据库架构满足第一个和第二正常Forms的要求,并且其所有属性在功能上仅依赖于主键,则数据库架构将采用第三常规形式。 3NF 域模型的用途用于以最大程度地减少重复并确保数据完整性的方式构造数据。 它侧重于将数据分解为较小的相关表,其中每个信息片段仅存储一次。
特性:
- 消除可传递依赖项:非键属性不应依赖于其他非键属性。
- 逻辑分组:数据根据其功能或含义在逻辑上分组到域中。
- Entity-Relationship (ERD) 的关系图:通常用于表示 3NF 域模型,显示实体彼此之间的关系。
表格名称 | 说明 | 关系键 |
---|---|---|
访问策略预配状态 | 有关预配状态的信息存储在此表中。 | ProvisioningStateId |
访问策略资源类型 | 访问 porlich 资源信息存储在此表中。 | ResourceTypeId |
访问策略集 | 此表中存储了有关访问策略、策略用例详细信息以及策略应用位置等的总体信息。 | AccessPolicySetId (UniqueId) 、ResourceTypeId (FK) 、ProvisioningStateId (FK) |
业务域 | 业务域名、说明、状态和所有权详细信息在业务域表中发布 | 父业务域 ID (FK) ,由用户 ID (FK) 创建,上次修改由用户 ID (FK) |
分类 | 数据资产分类信息存储在此表中。 | ClassificationId |
自定义访问用例 | 访问用例信息存储在此表中。 | AccessPolicySetId |
数据资产 | 数据资产名称、说明和源信息存储在此表中。 | DataAssetId (UniqueId) 、DataAssetTypeId (FK) 、CreatedByUserId (FK) 、LastModifiedByUserId (FK) |
数据资产列 | 数据资产列名、列说明和引用存储在此表中。 | DataAssetId (FK) 、ColumnId (Unique) 、DataAssetTypeId (FK) 、DataTypeId (FK) 、由用户 ID (FK) 创建、上次修改由用户 ID (FK) |
数据资产列分类分配 | 此表中存储了与数据分类分配相关的引用键。 | DataAssetId (FK) 、ColumnId (FK) 、ClassificationId (FK) |
数据资产域分配 | 此表中提供了与数据资产治理域分配相关的信息。 | DataAssetId (FK) 、BusinessDomainId (FK) 、AssignedByUserId (FK) |
数据资产所有者 | 此表中存储的数据资产所有者信息。 | DataAssetOwnerId |
数据资产所有者分配 | 数据资产所有者分配信息存储在此表中。 | DataAssetId、DataAssetOwnerId |
数据资产类型数据类型 | 数据资产类型信息存储在此表中。 | DataTypeId (UniqueId) ,DataAssetTypeId (FK) |
数据产品 | 此表中存储的数据产品名称、说明、用例、状态和其他相关信息。 | DataProductId (UniqueId) 、DataProductTypeId (FK) 、DataProductStatusId (FK) 、UpdateFrequencyId (FK) 、CreatedByUserId (FK) 、LastUpdatedByUserId (FK) |
数据产品资产分配 | 数据产品和数据资产分配信息存储在此表中。 | DataProductId、DataAssetId |
数据产品业务域分配 | 此表中存储了数据产品和治理域分配信息。 | DataProductId (FK) 、BusinessDomainId (FK) 、AssignedByUserId (FK) |
数据产品文档 | 数据产品文档参考信息存储在此表中。 | DataProductId、DocumentationId |
数据产品所有者 | 数据产品所有者信息存储在此表中。 | DataProductId、DataProductOwnerId |
数据产品状态 | 数据产品状态 (,例如此表中存储的已发布或草稿) 相关信息。 | DataProductStatusId |
数据产品使用条款 | 此表中存储了数据产品使用条款信息。 | DataProductId、TermOfUsedId、DataAssetId |
数据产品类型 | 此表中存储了有关数据产品类型(主控、参考、操作等)的信息。 | DataProductTypeId |
数据产品更新频率 | 此表中存储了有关此数据产品数据更新频率的信息。 | UpdateFrequencyId |
数据质量资产规则执行 | 此表中存储的数据质量扫描结果 | RuleId (FK) 、DataAssetId (FK) 、JobExecutionId (FK) |
数据质量作业执行 | 此表中存储了数据质量作业执行状态。 | JobExecutionId (UniqueId) |
数据质量规则 | 有关数据质量规则的信息存储在此表中。 | RuleId (UniqueId) 、RuleTypeId (FK) 、BusinessDomainId (FK) 、DataProductId (FK) 、 DataAssetId (FK) 、JobTypeDisplayName (FK) 、RuleOriginDisplayName (FK) 、RuleTargetObjectType (FK) 、CreatedByUserId (FK) 、LastUpdatedByUserId (FK) |
数据质量规则列执行 | 此表中存储了有关数据质量规则通过和失败计数、列级别的数据质量分数以及包括数据质量作业执行详细信息的信息。 | RuleId (FK) 、DataAssetId (FK) 、ColumnId (FK) 、JobExecutionId (FK) |
数据质量规则类型 | 此表中存储了数据质量规则类型和关联的维度。 | RuleTypeId (UniqueId) ,DimensionDisplayName (FK) |
数据订阅请求 | 有关此表中存储的数据订阅服务器、策略、订阅请求状态和其他相关信息的信息。 | SubscriberRequestId (UniqueId) 、SubscriberIdentityTypeDisplayName (FK) 、RequestorIdentityTypeDisplayName (FK) 、RequestorStatusDisplayName (FK) |
术语表术语 | 有关术语表术语、说明和术语表术语总体状态的信息存储在此表中。 | GlossaryTermId (UniqueId) 、ParentGlossaryTermId (FK) 、CreatedByUserId (FK) 、LastModifiedByUserId (FK) |
术语表术语业务域分配 | 有关术语表治理域分配和状态的信息存储在此表中。 | GlossaryTermId (FK) 、BusinessDomainId (FK) 、AssignedByUserId (FK) 、GlossaryTermStatusId (FK) 、CreatedByUserId (FK) 、LastUpdatedByUserId (FK) |
术语表术语数据产品分配 | 有关术语表数据产品分配的信息存储在此表中。 | GlossaryTermId (FK) 、DataProductId (FK) 、AssignedByUserId (FK) 、GlossaryTermStatusId (FK) 、CreatedByUserId (FK) 、LastUpdatedByUserId (FK) |
策略集审批者 | 策略集和审批者信息存储在此表中。 | SubscriberRequestId (FK) 、AccessPolicySetId (FK) 、ApproverUserId (FK) |
关系 | 有关源类型和目标信息的信息存储在此表中。 | AccountId、SourceId、TargetId |
将 Microsoft Purview 目录元数据订阅到 Fabric OneLake
可以按照以下步骤订阅 Microsoft Purview 的数据治理元数据进行分析和派生见解:
从左窗格中选择“设置”,选择“统一目录”,然后选择“解决方案集成”。
选择“编辑”。
添加 存储类型 并 启用 设置。
添加 位置 URL (示例:
https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata
)- 选择 “属性” 以复制 URL。
- 从 “属性” 页复制 URL。
在 URL 末尾添加文件夹名称 - 示例:/DEH (请参阅屏幕截图)
向参与者访问构造工作区的 Microsoft Purview 管理服务标识 (MSI) 。
测试连接。
选择“ 保存 ”,保存配置以将 Purview 元数据发布到 OneLake 工作区。
在 OneLake 中创建语义模型
数据和分析上下文中的语义模型是指定义特定域中的含义、关系和规则的结构化数据表示形式。 它提供了一个抽象层,通过使复杂数据更加直观和可访问,帮助用户理解复杂数据并与之交互,尤其是在商业智能 (BI) 和分析平台的上下文中。 在生成任何报表之前,始终需要语义模型。 在仓库中,用户可以将仓库对象 (表或视图)添加到其默认 Power BI 语义模型。 它们还可以添加其他语义建模属性,例如层次结构和说明。 然后,这些属性用于创建 Power BI 语义模型的表。 用户还可以从默认 Power BI 语义模型中删除对象。
若要从 Microsoft Purview 数据治理元数据域模型创建语义模型,请执行以下操作:
在 Fabric 工作区中打开 Lakehouse。
将域模型文件发布到增量表
- 选择省略号按钮 (...)
- 选择“加载到表 > ”“新建表”
- 新表名已预填充
- 选择“文件类型 parquet”
还可以使用 快捷方式 从 OneLake 和 OneLake 中对域模型进行快捷方式
- 选择省略号按钮 (...) 表
- 选择“ 新建快捷方式 ”,然后从“新建快捷方式源”页中选择“ Microsoft OneLake ”。
- 选择要快捷方式的域模型表
手动或通过快捷方式将所有文件发布到增量表后,可以将增量表添加到语义模型。
- 从 Lakehouse 页切换到 SQL 分析终结点页。
- 从“SQL 分析终结点”页左上角选择“报告”。
- 选择 “管理默认语义模型”。
- 从 dbo > Tables 选择要添加到语义模型的表,以便进行报告。
若要将对象(如表或视图)添加到默认 Power BI 语义模型,请选择“ 自动更新语义模型”。
注意
需要使用关系键手动绘制语义模型关系。
订阅 AdlsG2 存储Microsoft Purview 目录元数据
可以订阅 Microsoft Purview 的数据治理元数据,以便发布并存储在 AdlsG2 存储中,以便进行分析并派生见解,请执行以下步骤:
从左窗格中选择“设置”,选择“统一目录”,然后选择“解决方案集成”。
选择“编辑”。
选择“ 存储类型”。 和 “启用 设置”。
添加 位置 URL,这必须是 AdlsG2 路径 + “/ (容器名称) ”
- 转到 portal.azure.com
- 选择 adlsg2 存储 (主页 > adlsg2)
- 转到“设置终结点”>,然后选择 Data Lake 存储的主终结点。
向 AdlsG2 容器授予对 Microsoft Purview 管理服务标识 (MSI) 的 存储 Blob 数据参与者 访问权限
测试连接。
选择“ 保存 ”选项卡以保存将域模型发布到 adlsg2 存储的配置。
查看已发布的模型和数据
打开 portal.azure.com
选择 adlsg2 存储
选择在 purview 中使用 adlsg2 终结点添加的容器
浏览容器中发布的 delta parquet 文件列表。
浏览已发布的模型和元数据 () 查看下面的图像。
创建 Power BI 报表
Power BI 原生集成到整个 Fabric 体验中。 此本机集成包括一种称为 DirectLake 的唯一模式,用于访问来自 lakehouse 的数据,以提供最高性能的查询和报告体验。 DirectLake 是一项开创性的新功能,可用于在 Power BI 中分析非常大的语义模型。 使用 DirectLake,可以直接从数据湖加载 parquet 格式的文件,而无需查询数据仓库或 lakehouse 终结点,也无需将数据导入或复制到 Power BI 语义模型中。 DirectLake 是将数据从数据湖直接加载到 Power BI 引擎的快速路径,可供分析。
在传统的 DirectQuery 模式下,Power BI 引擎直接从源中查询每个查询执行的数据,查询性能取决于数据检索速度。 DirectQuery 无需复制数据,确保源中的任何更改都会立即反映在查询结果中。
有关更多详细信息 ,请遵循以下指南:如何在 Microsoft Fabric 中创建 Power BI 报表。
重要
- 默认刷新周期为每 24 小时一次。
- 如果要订阅 Microsoft Purview 元数据以发布到构造工作apce,Purview MSI 需要参与者访问你的 Fabric 工作区。
- 如果要将 purview 元数据子化以发布到 adlsg2 容器,Purview MSI 需要对Azure Data Lake Storage Gen2的存储 Blob 数据参与者访问权限。
注意
- 尚不支持计划数据刷新作业。
- 尚不支持 vNet。