Microsoft Fabric 中数据工厂的新增功能和计划
重要
发布计划描述了可能或可能尚未发布的功能。 交付时间线和投影功能可能会更改或未交付。 有关详细信息,请参阅Microsoft策略。
Microsoft Fabric 中的数据工厂将公民数据集成和专业数据集成功能合并为单一的新式数据集成体验。 它提供与 100 多个关系和非关系数据库、lakehouse、数据仓库、泛型接口(如 REST API、OData 等)的连接。
数据流:数据流 Gen2 允许执行大规模数据转换,并支持写入 Azure SQL 数据库、Lakehouse、数据仓库等的各种输出目标。 数据流编辑器提供 300 多个转换,包括基于 AI 的选项,使你能够比任何其他工具更灵活地轻松转换数据。 无论是从非结构化数据源(例如网页)提取数据还是重塑 Power Query 编辑器中的现有表,都可以轻松应用 Power Query 的数据提取示例,该示例使用人工智能(AI)并简化该过程。
数据管道: 数据管道提供了创建通用数据业务流程工作流的功能,可将数据提取、加载到首选数据存储、笔记本执行、SQL 脚本执行等任务组合在一起。 可以快速生成功能强大的元数据驱动数据管道,以自动执行重复任务。 例如,从数据库中的不同表加载和提取数据、循环访问Azure Blob 存储中的多个容器等。 此外,借助数据管道,可以使用 Microsoft Graph 数据连接ion (MGDC) 连接器从 Microsoft 365 访问数据。
复制作业: 复制作业通过简化且用户友好的过程简化了数据引入体验,将数据从任何源移动到任何目标,以 PB 级的速度移动数据。 可以使用各种数据传送样式(包括批处理复制、增量复制等)复制数据。
Apache Airflow 作业:Apache Airflow 作业是下一代Azure 数据工厂工作流业务流程管理器。 这是创建和管理 Apache Airflow 业务流程作业的简单高效方法,使你能够轻松大规模运行定向无环图(DAG)。 Apache Airflow 作业使你能够使用代码从丰富的数据源集中引入、准备、转换和协调数据,从而获得新式数据集成体验。
数据库镜像: Fabric 中的数据库镜像是一种低成本、低延迟的解决方案,设计为开放标准(例如 Delta Lake 表格式)。 它使你可以快速从各种系统复制数据和元数据。 使用数据库镜像,可以持续将数据资产复制到 Microsoft Fabric OneLake 进行分析。 借助高度集成的易于使用的体验,现在可以简化分析需求入门的方式。
若要了解详细信息,请参阅文档。
投资领域
在接下来的几个月里,Microsoft Fabric 中的数据工厂将扩展其连接选项,并继续添加到丰富的转换和数据管道活动库中。 此外,它使你能够从操作数据库执行实时高性能数据复制,并将这些数据引入湖中进行分析。
数据流 Gen2 CI/CD 和公共 API 支持
估计发布时间线:2024 年第 4 季度
发布类型:公共预览版
数据流 Gen2 功能将得到增强,以支持 Fabric 中的以下功能,包括:
- 能够在 ALM 部署管道中包含数据流 Gen2 项。
- 能够利用具有源代码管理(Git 集成)功能的数据流 Gen2 项。
- 数据流 Gen2 项的公共 CRUDLE API。
这些是许多客户要求很高的功能,我们很高兴能够将其作为预览版功能提供。
语义模型刷新表和分区
估计发布时间线:2024 年第 4 季度
发布类型:公共预览版
管道用户对于我们非常受欢迎的语义模型刷新管道活动非常兴奋。 常见的要求是通过刷新模型中的特定表和分区来改进其 ELT 处理管道。 现已启用此功能,使管道活动成为刷新 Fabric 语义模型的最有效方法!
构造数据工厂管道导入和导出
估计发布时间线:2024 年第 4 季度
发布类型:正式发布
作为数据工厂管道开发人员,通常需要导出管道定义,以便与其他开发人员共享该定义,或在其他工作区中重复使用它。 现在,我们添加了从 Fabric 工作区导出和导入数据工厂管道的功能。 此功能强大的功能将启用更多协作功能,在使用我们的支持团队排查管道问题时将非常有用。
数据工厂的 Copilot (数据管道)
估计发布时间线:2024 年第 4 季度
发布类型:公共预览版
数据工厂的 Copilot(数据管道)使客户能够使用自然语言生成数据管道,并提供故障排除指南。
Azure SQL DB 的镜像
估计发布时间线:2024 年第 4 季度
发布类型:正式发布
镜像提供无缝的 no-ETL 体验,用于将现有 Azure SQL DB 数据与 Microsoft Fabric 中的其余数据集成。 可以近乎实时地将 Azure SQL DB 数据直接复制到 Fabric OneLake,而不会影响事务工作负荷的性能。
打开镜像
估计发布时间线:2024 年第 4 季度
发布类型:公共预览版
Open Mirroring 是一项强大的功能,它通过允许任何应用程序或数据提供程序以最少的努力将数据资产直接引入 OneLake,从而增强 Fabric 的可扩展性。 通过使数据提供程序和应用程序能够将更改数据直接写入 Fabric 中的镜像数据库,Open Mirroring 简化了复杂数据更改的处理,确保所有镜像数据持续最新并准备好进行分析。
数据管道公共 API SPN 支持
估计发布时间线:2024 年第 4 季度
发布类型:公共预览版
为了在 Fabric 中使用管道 REST API 更加简单且更安全,我们将为公共 API 启用 SPN(服务主体)支持。
对 Fabric 工作区变量的数据管道支持
估计发布时间线:2024 年第 4 季度
发布类型:公共预览版
在构造数据工厂管道环境中实现 CICD 时,将值从开发更新到测试产品等非常重要。通过使用 Fabric 内部的变量,可以在环境之间替换值,还可以在类似于 ADF 全局参数的管道之间共享值。
本地数据网关自动更新
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
本地数据网关自动升级功能可确保网关始终运行最新版本,在不手动干预的情况下提供改进的功能、安全更新和新功能。 此功能可通过在更新可用时自动下载和安装更新来简化网关的管理。
VNET 网关的数据管道支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
VNET 数据网关将支持 Fabric 数据管道,包括管道复制活动和其他管道活动。 客户将能够通过 VNET 数据网关安全地连接到管道中的数据源。
数据流 Gen2 输出目标到 SharePoint 文件
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
使用数据流第 2 代清理和准备数据后,此功能允许选择 SharePoint 文件作为其数据目标。 借助此功能,可以轻松地将转换后的数据导出到 CSV 文件中,并将其存储在 Microsoft SharePoint 中,供有权访问网站的所有人使用。
对翻转窗口触发器的数据管道支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
使用非重叠且可“重播”的时间窗口计划管道运行是许多 ADF 用户喜欢使用的管道中非常重要的功能。 我们非常兴奋地将此翻转窗口功能引入到构造数据工厂的管道计划。
Azure 数据工厂项目
估计发布时间线:2025 年第 1 季度
发布类型:正式发布
我们非常高兴地宣布 Fabric 中Azure 数据工厂项正式发布。 利用这项新功能,现有 ADF 用户可以快速轻松地将其数据工厂从 Azure 提供给其 Fabric 工作区。 现在可以直接从 Fabric 管理、编辑和调用 ADF 管道!
对其他源的数据管道复制活动支持
估计发布时间线:2025 年第 1 季度
发布类型:正式发布
我们正在扩展对复制活动中更多源连接器的支持,使客户能够无缝复制各种源中的数据,包括 Teradata、Spark、Azure databricks delta lake、HubSpot、Cassandra、Salesforce Service Cloud、Oracle(捆绑)等。
数据流第 2 代并行执行
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
“用户希望有一种灵活的方法来定义其数据流 Gen2 转换的逻辑,并使用不同的参数并行执行。 如今,他们需要在其单个数据流中创建多个数据流或多个查询,以便具有可以使用不同的参数重复使用的逻辑。
作为此增强功能的一部分,我们将允许用户为其整个数据流项设置一个“foreach”循环,该循环由独立查询驱动,该查询充当参数值列表,循环访问并驱动此容器化方法以实现并行化和动态执行。
数据源标识管理(Azure 密钥库)
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
支持 Azure 密钥库 - 可以在 Azure 密钥库中存储密钥和机密并连接到它。 这样,就可以在单个位置管理密钥。
CosmosDB 的镜像
估计发布时间线:2025 年第 1 季度
发布类型:正式发布
镜像提供无缝的 no-ETL 体验,用于将现有 Azure Cosmos DB 数据与 Microsoft Fabric 中的其余数据集成。 你可以近乎实时地将 Azure Cosmos DB 数据直接连续复制到 Fabric OneLake,而不会对事务工作负载的性能产生任何影响。
数据流 Gen2 CI/CD 和公共 API 支持
估计发布时间线:2025 年第 1 季度
发布类型:正式发布
数据流 Gen2 项将支持 Fabric 中的 CI/CD 功能,包括源代码管理(Git 集成)和 ALM 部署管道。 此外,客户将能够通过 Fabric REST API 以编程方式与 Fabric 中的数据流 Gen2 项交互,从而支持通过数据流 Gen2 项执行 CRUDLE 操作。
数据流 Gen2 公共 API SPN 支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
数据流 Gen2 项将通过支持服务主体身份验证的 Fabric REST API 提供支持。
数据流 Gen2 增量刷新
估计发布时间线:2025 年第 1 季度
发布类型:正式发布
在 2024 年 9 月底,我们发布了数据流 Gen2 增量刷新作为公共预览版功能。 我们将继续监视客户反馈,并增强此功能,使其正式发布,计划于Q1CY2025结束。
对 Lakehouse 目标的数据流 Gen2 增量刷新支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
数据流 Gen2 增量刷新优化数据流执行,以便仅根据日期/时间分区列检索数据流数据源中更改的最新数据。 这可确保将数据以增量方式加载到 OneLake 中,以便进行下游转换或输出到数据流输出目标。
作为此增强的一部分,我们将直接支持增量刷新,以便将数据直接输出到 Fabric Lakehouse 表中。
数据流 Gen2 参数化
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
用户习惯于运行元数据驱动的管道,可以在其中将变量或参数注入管道的不同活动,从而以更动态的方式执行操作:创建一次,重复使用多次。
作为此增强的一部分,我们将使数据流能够通过 Fabric 中的数据管道执行,并为其现有数据流参数提供参数值。
数据流 Gen2 对另存为新项的支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
客户通常希望将现有数据流重新创建为新的数据流。 现在,为了实现这一点,他们需要从头开始创建新的 Dataflow Gen2 项并复制粘贴其现有查询,或利用导出/导入 Power Query 模板功能。 但是,由于不必要的步骤,这不仅不方便,而且不会传递其他数据流设置,例如计划刷新和其他项属性(名称、说明、敏感度标签等)。
作为此增强功能的一部分,我们将在数据流第 2 代编辑体验中提供快速的“另存为”手势,允许用户将现有数据流另存为新的数据流。
数据流 Gen1 对“另存为数据流第 2 代”新项的支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
客户通常希望将现有的数据流 Gen1 项重新创建为新的数据流 Gen2 项。 现在,为了实现这一点,他们需要从头开始创建新的 Dataflow Gen2 项并复制粘贴其现有查询,或利用导出/导入 Power Query 模板功能。 但是,由于不必要的步骤,这不仅不方便,而且不会传递其他数据流设置,例如计划刷新和其他项属性(名称、说明、敏感度标签等)。
作为此增强的一部分,我们将在数据流 Gen1 编辑体验中提供快速的“另存为”手势,允许用户将现有的数据流 Gen1 项保存为新的数据流 Gen2 项。
复制作业 - 增量复制,无需用户指定水印列
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
我们将在密钥连接器的复制作业中引入本机 CDC(变更数据捕获)功能。 这意味着增量复制将自动检测更改 - 无需客户指定增量列。
复制作业
估计发布时间线:2025 年第 1 季度
发布类型:正式发布
数据工厂中的复制作业将数据引入体验提升到从任何源到任何目标更简化且用户友好的过程。 现在,复制数据比以往更容易。 复制作业支持各种数据传送样式,包括批量复制和增量复制,从而灵活地满足特定需求。
复制作业 CI/CD 支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
复制作业项将支持 Fabric 中的 CI/CD 功能,包括源代码管理(Git 集成)以及 ALM 部署管道。
复制作业公共 API 支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
客户将能够通过构造公共 API 以编程方式与 Fabric 中的复制作业项交互,从而支持通过复制作业项执行 CRUDLE 操作
数据流 Gen2 对其他快速复制源的支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
我们正在扩展数据流 Gen2 中的快速复制以支持更多源连接器,使客户能够以更高的性能加载数据。 新的连接器将包括 Fabric Lakehouse 文件、Google BigQuery、Amazon Redshift 等 -- 可实现更快、更高效的数据集成。
复制对其他源的作业支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
我们正在扩展对复制作业中更多源连接器的支持,使客户能够从各种源无缝复制数据。 同时,我们将保持简化的体验,同时提供不同的复制模式,包括完整复制和增量复制。
OneLake 存储事件触发器的数据管道支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
用于在结构数据工厂中调用管道的常用机制是使用文件触发器。 当针对 Blob 存储或 ADLS Gen2 检测到文件事件(即文件到达、文件删除 ...)时,将调用 Fabric 数据工厂管道。 现在,我们已将 OneLake 文件事件添加到 Fabric 中的触发器事件类型。
使客户能够参数化其连接
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
连接提供了一个通用框架,用于定义数据存储的连接和身份验证。 这些连接可以跨不同的项共享。 借助参数化支持,你将能够生成复杂且可重用的管道、笔记本、数据流和其他项类型。
DBT 的数据管道支持
估计发布时间线:2025 年第 1 季度
发布类型:公共预览版
DBT CLI 业务流程(数据生成工具):合并数据转换工作流的数据生成工具(dbt)。
连接中用户分配的托管标识支持
估计发布时间线:2025 年第 2 季度
发布类型:公共预览版
此增强功能支持连接中用户分配的托管标识,通过提供更安全、更灵活的身份验证方法来访问数据资源,从而提供重要的价值。 它避免硬编码凭据,无需轮换机密,确保符合安全策略,与 Azure 服务无缝集成,并允许多个实例共享同一标识,从而支持连接中的可伸缩性。
发货功能(s)
Fabric 中的Azure 数据工厂
发货(2024 年第 3 季度)
发布类型:公共预览版
将现有Azure 数据工厂(ADF)带到 Fabric 工作区! 这是一项新的预览功能,可用于从 Fabric 工作区连接到现有 ADF 工厂。
现在,你将能够直接从 Fabric 工作区 UI 完全管理 ADF 工厂! 将 ADF 链接到 Fabric 工作区后,可以像在 ADF 中一样触发、执行和监视管道,直接在 Fabric 内部触发、执行和监视管道。
支持调用跨工作区数据管道
发货(2024 年第 3 季度)
发布类型:公共预览版
调用管道活动更新:我们正在为调用管道活动启用一些新的和令人兴奋的更新。 为了响应压倒性的客户和社区请求,我们正在跨工作区运行数据管道。 现在,你将能够从有权执行的其他工作区调用管道。 这将启用非常令人兴奋的数据工作流模式,这些模式可以利用跨工作区和跨功能团队的数据工程和集成团队的协作。
已添加到数据管道的本地数据网关(OPDG)支持
发货(2024 年第 3 季度)
发布类型:正式发布
此功能使数据管道能够使用 Fabric 数据网关访问本地和虚拟网络后面的数据。 对于使用自承载集成运行时(SHIR)的用户,他们将能够移动到 Fabric 中的本地数据网关。
复制作业
发货(2024 年第 3 季度)
发布类型:公共预览版
复制作业简化了需要引入数据的客户的体验,而无需创建数据流或数据管道。 复制作业支持从任何数据源到任何数据目标的完整和增量复制。 立即注册个人预览版。
Snowflake 镜像
发货(2024 年第 3 季度)
发布类型:正式发布
镜像提供无缝的 no-ETL 体验,用于将现有 Snowflake 数据与 Microsoft Fabric 中的其余数据集成。 可以近乎实时地将 Snowflake 数据直接复制到 Fabric OneLake,而不会影响事务工作负荷的性能。
改进了刷新失败电子邮件通知
发货(2024 年第 3 季度)
发布类型:公共预览版
电子邮件通知允许数据流 Gen2 创建者监视数据流刷新操作的结果(成功/失败)。
数据流 Gen2 中的快速复制支持
发货(2024 年第 3 季度)
发布类型:正式发布
我们将使用管道复制活动功能,在数据流 Gen2 体验中直接添加对大规模数据引入的支持。 此增强功能可显著扩展数据流 Gen2 的数据处理能力,提供大规模 ELT(Extract-Load-Transform)功能。
数据流 Gen2 中的增量刷新支持
发货(2024 年第 3 季度)
发布类型:公共预览版
我们将在 Dataflow Gen2 中添加增量刷新支持。 借助此功能,你可以从数据源增量提取数据、应用 Power Query 转换以及加载到各种输出目标。
数据源标识管理(托管标识)
发货(2024 年第 3 季度)
发布类型:公共预览版
这样就可以在工作区级别配置托管标识。 可以使用 Fabric 托管标识安全地连接到数据源。
Azure Databricks 作业的数据管道支持
发货(2024 年第 3 季度)
发布类型:公共预览版
我们正在更新数据工厂数据管道 Azure Databricks 活动,以使用最新的作业 API,实现令人兴奋的工作流功能,例如执行 DLT 作业。
数据工厂的 Copilot (数据流)
发货(2024 年第 3 季度)
发布类型:正式发布
数据工厂 (数据流) 的 Copilot 使客户能够在使用自然语言创建数据集成解决方案时使用自然语言表达其要求。
SparkJobDefinition 的数据管道支持
发货(2024 年第 2 季度)
发布类型:正式发布
现在,可以直接从管道活动执行 Spark 代码,包括 JAR 文件。 只需指向 Spark 代码,管道将在 Fabric 中的 Spark 群集上执行作业。 此新活动可实现令人兴奋的数据工作流模式,该模式利用 Fabric 的 Spark 引擎的强大功能,同时在 Spark 作业所在的管道中包含数据工厂控制流和数据流功能。
事件驱动触发器的数据管道支持
发货(2024 年第 2 季度)
发布类型:公共预览版
调用数据工厂数据管道的常见用例是在文件到达和文件删除等文件事件时触发管道。 对于来自 ADF 或 Synapse 到 Fabric 的客户,使用 ADLS/Blog 存储事件是非常常见的方法,用于发出新管道执行信号或捕获创建的文件的名称。 Fabric 数据工厂中的触发器利用 Fabric 平台功能,包括 EventStreams 和 Reflex 触发器。 在 Fabric 数据工厂管道设计画布内,你将拥有一个触发器按钮,可以按该按钮为管道创建 Reflex 触发器,也可以直接从数据激活器体验创建触发器。
数据流第 2 代输出目标的暂存默认值
发货(2024 年第 2 季度)
发布类型:公共预览版
数据流 Gen2 提供将数据从各种数据源引入 Fabric OneLake 的功能。 暂存此数据后,可以利用大规模数据流 Gen2 引擎(基于 Fabric Lakehouse/Warehouse SQL 计算)进行大规模转换。
数据流 Gen2 的默认行为是在 OneLake 中暂存数据以启用大规模数据转换。 虽然这非常适用于大规模方案,但它不适用于涉及引入少量数据的方案,因为它在最终加载到数据流输出目标之前为数据引入了额外的跃点(暂存)。
通过计划的增强功能,我们微调要禁用的默认暂存行为,对于不需要暂存(即 Fabric Lakehouse 和 Azure SQL 数据库)的输出目标的查询。
可以通过“查询设置”窗格或“查询”窗格中的查询上下文菜单按查询手动配置暂存行为。
Azure HDInsight 的数据管道支持
发货(2024 年第 2 季度)
发布类型:正式发布
HDInsight 是适用于 Hadoop 的 Azure PaaS 服务,使开发人员能够在云中构建非常强大的大数据解决方案。 新的 HDI 管道活动将在数据工厂数据管道中启用 HDInsights 作业活动,类似于 ADF 和 Synapse 管道中多年来一直存在的有趣性。 现在,我们已将此功能直接引入 Fabric 数据管道。
复制活动的新连接器
发货(2024 年第 2 季度)
发布类型:公共预览版
将为复制活动添加新连接器,使客户能够从以下源引入数据,同时利用数据管道:Oracle、MySQL、Azure AI 搜索、Azure 文件存储、Dynamics AX、Google BigQuery。
Apache Airflow 作业:生成由 Apache Airflow 提供支持的数据管道
发货(2024 年第 2 季度)
发布类型:公共预览版
Apache Airflow 作业(之前称为数据工作流)由 Apache Airflow 提供支持,并提供集成的 Apache Airflow 运行时环境,使你可以轻松创作、执行和计划 Python DAG。
数据源标识管理 (SPN)
发货(2024 年第 2 季度)
发布类型:正式发布
服务主体 - 若要访问受 Azure AD 租户保护的资源,需要访问的实体必须由安全主体表示。 你将能够使用服务主体连接到数据源。
数据管道的数据工厂 Git 集成
发货(2024 年第 1 季度)
发布类型:公共预览版
可以连接到 Git 存储库,以协作方式开发数据管道。 数据管道与 Fabric 平台的应用程序生命周期管理(ALM)功能集成可实现版本控制、分支、提交和拉取请求。
数据流 Gen2 中输出目标的增强功能(查询架构)
发货(2024 年第 1 季度)
发布类型:公共预览版
我们正在通过以下高请求的功能增强数据流 Gen2 中的输出目标:
- 配置输出目标后,能够处理查询架构更改。
- 用于加速数据流创建的默认目标设置。
若要了解详细信息,请参阅 数据流 Gen2 数据目标和托管设置
获取数据体验改进(浏览 Azure 资源)
发货(2024 年第 1 季度)
发布类型:公共预览版
浏览 Azure 资源提供无缝导航来浏览 Azure 资源。 可以轻松导航 Azure 订阅,并通过直观的用户界面连接到数据源。 它可帮助你快速查找并连接到所需的数据。
已添加到数据管道的本地数据网关(OPDG)支持
发货(2024 年第 1 季度)
发布类型:公共预览版
此功能使数据管道能够使用 Fabric 数据网关访问本地和虚拟网络后面的数据。 对于使用自承载集成运行时(SHIR)的用户,他们将能够移动到 Fabric 中的本地数据网关。
数据流 Gen2 中的快速复制支持
发货(2024 年第 1 季度)
发布类型:公共预览版
我们将使用管道复制活动功能,在数据流 Gen2 体验中直接添加对大规模数据引入的支持。 这支持 Azure Data Lake Storage 和 Blob 存储中的源,例如Azure SQL 数据库、CSV 和 Parquet 文件。
此增强功能可显著扩展数据流 Gen2 的数据处理能力,提供大规模 ELT(Extract-Load-Transform)功能。
取消数据流 Gen2 中的刷新支持
发货(2023 年第 4 季度)
发布类型:公共预览版
我们正在添加对取消工作区项视图中正在进行的数据流 Gen2 刷新的支持。