统一目录世系用户指南

本文概述了 Microsoft Purview 统一目录 中的数据世系功能。

背景

Microsoft Purview 的平台功能之一是能够显示数据进程创建的数据集之间的世系。 数据工厂、Data Share和 Power BI 等系统在移动时捕获数据的世系。 还通过 Atlas 挂钩和 REST API 支持自定义世系报告。

世系集合

Microsoft Purview 中从企业数据系统收集的元数据会缝合在一起,以显示端到端数据世系。 将世系收集到 Microsoft Purview 的数据系统大致分为以下三种类型:

每个系统都支持不同级别的世系范围。 查看以下部分或系统的各个世系文章,以确认当前可用的世系范围。

已知限制

  • 用作进程活动源的数据库视图 (Azure 数据工厂、Synapse Pipelines、Azure SQL Database、Azure Data Share) 当前在 Microsoft Purview 中捕获为数据库表对象。 如果同时扫描了数据库,则会在 Purview Microsoft 中单独发现视图资产。 在此方案中,Microsoft Purview 中捕获了两个名称相同的资产,一个资产作为具有数据世系的表,另一个作为视图。
  • 如果存储过程包含 drop 或 create 语句,则当前不会在世系中捕获它们。

数据处理系统

数据集成和 ETL 工具可以在执行时将世系推送到 Microsoft Purview 中。 数据工厂、Data Share、Synapse、Azure Databricks 等工具属于此类数据处理系统。 数据处理系统将数据集引用为来自不同数据库和存储解决方案的源,以创建目标数据集。 下表列出了当前与 Microsoft Purview 的世系集成的数据处理系统列表。

数据处理系统 支持的范围
气流 Airflow 世系
Azure Data Share 共享快照
Azure 数据工厂 复制活动
数据流活动
执行 SSIS 包活动
Azure SQL数据库 (预览版) 存储过程执行的世系提取
Azure Synapse Analytics 复制活动
数据流活动

数据存储系统

& 存储解决方案(如 Oracle、Teradata 和 SAP)的数据库具有使用脚本语言转换数据的查询引擎。 来自视图/存储过程/等的数据世系信息收集到 Microsoft Purview 中,并与来自其他系统的世系拼合在一起。 通过 Microsoft Purview 数据扫描支持以下数据源的世系。 从相应文章中详细了解支持的世系方案。

类别 数据源
Azure Azure Databricks
Database Cassandra
Db2
Google BigQuery
Hive 元存储数据库
MySQL
Oracle
PostgreSQL
Snowflake
Teradata
服务和应用 Erwin
Looker
SAP ECC
SAP S/4HANA

数据分析和报告系统

Azure 机器学习和 Power BI 等数据分析和报告系统将世系报告为 Microsoft Purview。 这些系统将使用存储系统中的数据集,并通过其元模型进行处理,以创建 BI 仪表板、ML 试验等。

数据分析 & 报告系统 支持的范围
Power BI 数据集、数据流、报表 & 仪表板

世系入门

Microsoft Purview 中的世系包括数据集和进程。 数据集也称为节点,而进程也可以称为边缘:

  • 数据集 (节点) : (结构化或非结构化) 作为进程的输入提供的数据集。 例如,SQL 表、Azure Blob 和 (文件(如 .csv 和 .xml) )都被视为数据集。 在 Microsoft Purview 的世系部分中,数据集由矩形框表示。

  • 进程 (Edge) :对数据集执行的活动或转换称为进程。 例如,ADF 复制活动、Data Share 快照等。 在 Microsoft Purview 的世系部分中,进程由圆边框表示。

若要访问 Microsoft Purview 中资产的世系信息,请执行以下步骤:

  1. 通过以下方式打开 Microsoft Purview 治理门户:

  2. 在 Microsoft Purview 治理门户主页上,搜索数据集名称或进程名称,例如 ADF 复制或数据流活动。 然后按 Enter。

  3. 在搜索结果中,选择资产并选择其 “世系 ”选项卡。

    显示如何选择“世系”选项卡的屏幕截图。

资产级世系

Microsoft Purview 支持数据集和进程的资产级世系。 若要查看资产级别的世系,请转到目录中当前资产的 “世系 ”选项卡。 选择当前数据集资产节点。 默认情况下,属于数据的列列表显示在左窗格中。

显示如何在世系页中选择“查看列”的屏幕截图。

手动世系

Microsoft Purview 中的数据世系对于本地、多云和 SaaS 环境中的许多资产都是 自动化 的。 尽管我们继续添加更多自动化源,但手动世系允许你记录尚未支持自动化的源的世系元数据,而无需使用任何代码。

若要为任何资产添加手动世系,请执行以下步骤:

  1. 在 统一目录 中搜索资产,然后选择它以查看详细信息。

  2. 选择 “编辑”,导航到“ 世系 ”选项卡,然后在底部面板中选择“ 添加手动世系 ”。

    编辑资产和添加手动世系的屏幕截图。

  3. 配置资产世系:

    1. 选择资产下拉列表以从建议列表中查找资产,或 选择“查看更多” 以搜索完整目录。 选择要链接的资产。
    2. 选择交换图标,将关系方向配置为为下游世系) 生成 (,或为上游世系) 使用 (。
    3. 如果要删除世系,请选择垃圾桶图标。

    数据资产世系页的屏幕截图,其中突出显示了资产下拉列表。

  4. 在两个数据资产之间添加世系时,还可以配置列级世系。 选择行开头的展开图标,从相应的下拉列表中选择上游列和下游列以配置列映射。 选择加号图标以添加更多列世系;选择回收站图标以删除现有垃圾箱。

    配置列级世系的屏幕截图。

  5. 可以通过再次选择“添加手动世系”按钮来添加更多资产级别 世系 。 完成后,选择“ 保存 ”按钮以保存世系并退出编辑模式。

手动世系的已知限制

  • 当前资产选取器体验允许一次仅选择一个资产。
  • 两个数据资产之间的世系目前支持列级手动世系,而在两者之间涉及进程资产时则不支持。
  • 源资产和目标资产所需的数据管理访问权限。
  • 这些资产类型目前不允许手动世系,因为它们支持自动世系:
    • Azure 数据工厂
    • Synapse 管道
    • Power BI 数据集
    • Teradata 存储过程
    • Azure SQL存储过程

数据集列世系

若要查看数据集的列级世系,请转到目录中当前资产的 “世系 ”选项卡,然后按照以下步骤操作:

  1. 进入世系选项卡后,在左窗格中,选择要在数据世系中显示的每一列旁边的检查框。

    显示如何选择要在世系页中显示的列的屏幕截图。

  2. 将鼠标悬停在左窗格或世系画布数据集中的选定列上,以查看列映射。 突出显示所有列实例。

    显示如何将鼠标悬停在列名上以突出显示数据世系路径中的列流的屏幕截图。

  3. 如果列数大于左窗格中显示的列数,请使用筛选器选项按名称选择特定列。 或者,可以使用鼠标滚动浏览列表。

    显示如何在世系页上按列名称筛选列的屏幕截图。

  4. 如果世系画布包含更多节点和边缘,请使用筛选器按名称选择数据资产或处理节点。 或者,可以使用鼠标在世系窗口周围平移。

    显示世系页上按名称排列的数据资产节点的屏幕截图。

  5. 使用左窗格中的 开关突出显示世系画布中的数据集列表。 如果关闭切换开关,将显示至少包含一个选定列的任何资产。 如果打开切换开关,则仅显示包含所有列的数据集。

    显示如何使用切换开关筛选世系页上的节点列表的屏幕截图。

处理列世系

还可以在统一目录中查看数据进程,例如复制活动。 例如,在此世系流中,选择复制活动:

数据世系流的屏幕截图,其中突出显示了其中一个复制活动节点。

复制活动将展开,然后选择“ 切换到资产 ”按钮,这将提供有关流程本身的更多详细信息。

已展开的复制活动节点的屏幕截图,并选中了“切换到资产”按钮的新开关。

数据进程可以采用一个或多个输入数据集来生成一个或多个输出。 在 Microsoft Purview 中,列级世系可用于进程节点。

  1. 在列面板中的下拉列表中的输入和输出数据集之间切换。

  2. 从一个或多个表中选择列,查看从输入数据集流向相应输出数据集的世系。

    显示进程节点的列世系的屏幕截图。

浏览世系中的资产

  1. 选择“ 切换到任何资产上的资产 ”,从世系视图中查看其相应的元数据。 这样做是从世系视图浏览到目录中另一个资产的有效方法。

    屏幕截图:如何在世系数据资产中选择“切换到资产”。

  2. 对于常用数据集,世系画布可能会变得复杂。 为了避免混乱,默认视图仅显示资产的五个世系级别。 可以通过选择世系画布中的气泡来扩展世系的其余部分。 数据使用者还可以隐藏画布中不感兴趣的资产。 若要进一步减少混乱,请关闭世系画布顶部的“ 更多世系 ”切换。 此操作将隐藏世系画布中的所有气泡。

    显示如何切换“更多世系”的屏幕截图。

  3. 使用世系画布中的智能按钮获取世系的最佳视图:

    1. 全屏幕
    2. 缩放以适应
    3. 放大缩小字体功能 放大缩小字体功能
    4. 自动对齐
    5. 缩放预览
    6. 更多选项:
      1. 将当前资产居中
      2. 重置为默认视图

    显示如何选择世系智能按钮的屏幕截图。

手动或使用 REST API 生成自定义世系

Microsoft Purview 的重要平台功能之一是能够显示数据进程创建的数据集之间的世系。 数据工厂、Data Share和 Power BI 等系统在移动时捕获数据的世系。 在某些情况下,出于实际可视化和/或企业报告目的,Purview 自动生成的世系不完整或缺失。 在这些方案中,可以在 Microsoft Purview 门户中手动或通过 Apache Atlas 挂钩和 REST API 创建自定义世系条目。 使用 REST API 报告或生成自定义世系的另一个主要好处是克服或缓解手动世系公开的功能限制。

若要手动生成自定义世系,可以按照以下用户指南进行操作: Microsoft Purview 中的手动世系条目

若要使用 REST API 在 Microsoft Purview 中生成自定义世系,请按照以下用户指南进行操作: Microsoft Purview - 使用 REST API 生成自定义世系

提示

在某些情况下,REST API 可以提供比通过门户手动生成世系条目更多的输入和自定义选项。

世系最佳做法

后续步骤