如何连接 Azure 数据工厂 和 Microsoft Purview
本文档介绍将 Azure 数据工厂 帐户与 Microsoft Purview 帐户连接以跟踪数据世系和引入数据源所需的步骤。 本文档还详细介绍了活动覆盖范围和支持的世系模式。
将Azure 数据工厂连接到 Microsoft Purview 时,每当运行受支持的Azure 数据工厂活动时,有关活动的源数据、输出数据和活动的元数据将自动引入Microsoft Purview 数据映射。
如果数据源已扫描并存在于数据映射中,则引入过程会将Azure 数据工厂的世系信息添加到该现有源。 如果数据映射中不存在源或输出,并且受Azure 数据工厂世系支持Microsoft Purview 会自动将其元数据从Azure 数据工厂添加到根集合下的数据映射中。
在用户使用Azure 数据工厂移动和转换信息时,这是监视数据资产的绝佳方法。
查看现有数据工厂连接
多个 Azure 数据工厂可以连接到单个 Microsoft Purview 以推送世系信息。 当前限制允许你一次从 Microsoft Purview 管理中心连接最多 10 个数据工厂帐户。 若要显示连接到 Microsoft Purview 帐户的数据工厂帐户列表,请执行以下操作:
在左侧导航窗格中选择“ 管理 ”。
在 “世系连接”下,选择“ 数据工厂”。
此时会显示数据工厂连接列表。
请注意连接 状态的各种值:
- 已连接:数据工厂已连接到 Microsoft Purview 帐户。
- 已断开连接:数据工厂有权访问目录,但它已连接到另一个目录。 因此,数据世系不会自动报告给目录。
- 未知:当前用户无权访问数据工厂,因此连接状态为未知。
注意
若要查看数据工厂连接,需要分配以下角色。 不支持从管理组继承角色。 根集合上的集合管理员 角色。
创建新的数据工厂连接
注意
若要添加或删除数据工厂连接,需要分配以下角色。 不支持从管理组继承角色。 根集合上的集合管理员 角色。
此外,它还要求用户是数据工厂的“所有者”或“参与者”。
数据工厂需要启用系统分配的托管标识。
按照以下步骤将现有数据工厂连接到 Microsoft Purview 帐户。 还可以 将数据工厂连接到从 ADF Microsoft Purview 帐户。
在左侧导航窗格中选择“ 管理 ”。
在 “世系连接”下,选择“ 数据工厂”。
在 “数据工厂连接 ”页上,选择“ 新建”。
从列表中选择数据工厂帐户,然后选择“ 确定”。 还可以按订阅名称进行筛选以限制列表。
如果数据工厂已连接到当前 Microsoft Purview 帐户,或者数据工厂没有托管标识,则可能会禁用某些数据工厂实例。
如果任何选定的数据工厂已连接到其他 Microsoft Purview 帐户,将显示警告消息。 选择“确定”时,数据工厂与其他Microsoft Purview 帐户的连接将断开连接。 不需要其他确认。
注意
我们支持同时添加最多 10 个Azure 数据工厂帐户。 如果要添加 10 个以上的数据工厂帐户,请分批添加。
身份验证的工作原理
数据工厂的托管标识用于对从数据工厂到 purview Microsoft 的世系推送操作进行身份验证。 将数据工厂连接到 UI 上的 Microsoft Purview 时,它会自动添加角色分配。
在 Purview 根集合上授予数据工厂的托管标识数据策展人角色Microsoft。 详细了解 Microsoft Purview 和 添加角色和通过集合限制访问中的访问控制。
删除数据工厂连接
若要删除数据工厂连接,请执行以下操作:
监视数据工厂链接
在 Microsoft Purview 治理门户中,可以 监视数据工厂链接。
支持的Azure 数据工厂活动
Microsoft Purview 从以下Azure 数据工厂活动捕获运行时世系:
重要
如果源或目标使用不受支持的数据存储系统,Microsoft Purview 会删除世系。
数据工厂与 Microsoft Purview 之间的集成仅支持数据工厂支持的数据系统的子集,如以下部分所述。
复制活动支持
数据存储 | 支持 |
---|---|
Azure Blob 存储 | 是 |
Azure 认知搜索 | 是 |
Azure Cosmos DB for NoSQL * | 是 |
Azure Cosmos DB for MongoDB * | 是 |
Azure 数据资源管理器 * | 是 |
Azure Data Lake Storage Gen1 | 是 |
Azure Data Lake Storage Gen2 | 是 |
Azure Database for MariaDB * | 是 |
Azure Database for MySQL * | 是 |
Azure Database for PostgreSQL * | 是 |
Azure 文件 | 是 |
Azure SQL数据库 * | 是 |
Azure SQL 托管实例 * | 是 |
Azure Synapse Analytics * | 是 |
Azure 专用 SQL 池 (以前为 SQL DW) * | 是 |
Azure 表存储 | 是 |
Amazon S3 | 是 |
蜂房* | 是 |
神谕* | 是 |
连接到 SAP ECC 或 SAP S/4HANA) 时的 SAP 表 ( | 是 |
SQL Server * | 是 |
Teradata * | 是 |
* Microsoft Purview 目前不支持用于世系或扫描的查询或存储过程。 世系仅限于表和视图源。
如果使用自承载Integration Runtime,请注意支持以下沿袭的最低版本:
- 任何用例:版本 5.9.7885.3 或更高版本
- 从 Oracle 复制数据:版本 5.10 或更高版本
- 通过 COPY 命令或 PolyBase 将数据复制到 Azure Synapse Analytics:版本 5.10 或更高版本
复制活动世系的限制
目前,如果使用以下复制活动功能,则尚不支持世系:
- 使用二进制格式将数据复制到 Azure Data Lake Storage Gen1 中。
- 二进制、分隔文本、Excel、JSON 和 XML 文件的压缩设置。
- Azure SQL Database、Azure SQL 托管实例、Azure Synapse Analytics、SQL Server 和 SAP 表的源分区选项。
- 将数据复制到基于文件的接收器,并设置每个文件的最大行数。
- 当源/接收器是 资源集时,复制活动当前不支持列级世系。
除了世系, (“资产 -> 架构”选项卡中显示的数据资产架构) 针对以下连接器进行报告:
- Azure Blob、Azure 文件存储、ADLS Gen1、ADLS Gen2 和 Amazon S3 上的 CSV 和 Parquet 文件
- Azure 数据资源管理器、Azure SQL Database、Azure SQL 托管实例、Azure Synapse Analytics、SQL Server、Teradata
数据流支持
数据存储 | 支持 |
---|---|
Azure Blob 存储 | 是 |
Azure Cosmos DB for NoSQL * | 是 |
Azure Data Lake Storage Gen1 | 是 |
Azure Data Lake Storage Gen2 | 是 |
Azure Database for MySQL * | 是 |
Azure Database for PostgreSQL * | 是 |
Azure SQL数据库 * | 是 |
Azure SQL 托管实例 * | 是 |
Azure Synapse Analytics * | 是 |
Azure 专用 SQL 池 (以前为 SQL DW) * | 是 |
* Microsoft Purview 目前不支持用于世系或扫描的查询或存储过程。 世系仅限于表和视图源。
数据流世系的限制
- 数据流世系可能会生成文件夹级 资源集 ,而无法查看所涉及的文件。
- 当源/接收器 设置为资源时,当前不支持列级世系。
- 对于数据流活动的世系,Microsoft Purview 仅支持显示涉及的源和接收器。 尚不支持数据流转换的详细世系。
- 当 流是 数据流的一部分时,不支持世系。
- 目前,Purview 不支持 Synapse 表的世系报告 (LakeHouse DB/Workspace DB)
执行 SSIS 包支持
请参阅 支持的数据存储。
访问受保护的 Microsoft Purview 帐户
如果 Microsoft Purview 帐户受防火墙保护,请了解如何让数据工厂通过 Microsoft Purview 专用终结点访问受保护的 Microsoft Purview 帐户。
将数据工厂世系引入 Microsoft Purview
有关端到端演练,请遵循 教程:将数据工厂世系数据推送到 Microsoft Purview。
支持的世系模式
Purview Microsoft支持多种世系模式。 生成的世系数据基于数据工厂活动中使用的源和接收器类型。 尽管数据工厂支持超过 80 个源和接收器,但 Microsoft Purview 仅支持一个子集,如支持的Azure 数据工厂活动中所述。
若要配置数据工厂以发送世系信息,请参阅 世系入门。
在世系视图中查找信息的其他一些方法包括:
- 在“ 世系 ”选项卡中,将鼠标悬停在形状上,以预览工具提示中有关资产的其他信息。
- 选择节点或边缘以查看其所属的资产类型或要切换资产。
- 数据集的列显示在“ 世系 ”选项卡的左侧。有关列级世系的详细信息,请参阅 数据集列世系。
1:1 操作的数据世系
捕获数据世系的最常见模式是将数据从单个输入数据集移动到单个输出数据集,中间有一个进程。
此模式的示例如下:
- 1 个源/输入: 客户 (SQL 表)
- 1 个接收器/输出: Customer1.csv (Azure Blob)
- 1 个进程:CopyCustomerInfo1#Customer1.csv (数据工厂复制活动)
支持 1:1 世系和通配符的数据移动
捕获世系的另一种常见方案是使用通配符将文件从单个输入数据集复制到单个输出数据集。 通配符允许复制活动匹配多个文件,以便使用文件名的公用部分进行复制。 Microsoft Purview 捕获由相应复制活动复制的每个文件的文件级世系。
此模式的示例如下:
- 源/输入: CustomerCall*.csv (ADLS Gen2 路径)
- 接收器/输出: CustomerCall*.csv (Azure blob 文件)
- 1 个进程:CopyGen2ToBlob#CustomerCall.csv (数据工厂复制活动)
使用 n:1 世系的数据移动
可以使用数据流活动来执行合并、联接等数据操作。 多个源数据集可用于生成目标数据集。 在此示例中,Microsoft Purview 将单个输入文件的文件级世系捕获到属于数据流活动的 SQL 表。
此模式的示例如下:
- 2 个源/输入: Customer.csv、 Sales.parquet (ADLS Gen2 路径)
- 1 个接收器/输出:公司数据 (Azure SQL 表)
- 1 个进程:DataFlowBlobsToSQL (数据工厂数据流活动)
资源集的世系
资源集是目录中的逻辑对象,表示基础存储中的许多分区文件。 有关详细信息,请参阅 了解资源集。 当 Microsoft Purview 从 Azure 数据工厂 捕获世系时,它会应用规则来规范化各个分区文件并创建单个逻辑对象。
在以下示例中,Azure Data Lake Gen2 资源集是从 Azure Blob 生成的:
- 1 个源/输入: Employee_management.csv (Azure Blob)
- 1 个接收器/输出: Employee_management.csv (Azure Data Lake Gen 2)
- 1 个进程:CopyBlobToAdlsGen2_RS (数据工厂复制活动)