从数据流 Gen1 迁移到数据流 Gen2

本文面向 Power BI 数据流创建者。 它为 Microsoft Fabric 中的 数据工厂 提供指导和理由,帮助将其数据流迁移到 Dataflow Gen2。

注意

数据流 Gen2 是新一代数据流,可提供新功能和改进的体验。 第 2 代数据流与 Power BI 数据流一起驻留,后者现在称为 数据流 Gen1

若要了解数据流第 1 代与数据流第 2 代之间的差异,请参阅 从数据流第 1 代到数据流第 2 代

背景

Microsoft Fabric 已演变为自助服务和 IT 托管企业数据的集成平台。 随着数据量和复杂性的指数增长,Fabric 客户要求其企业解决方案可缩放、安全、易于管理,并且可供组织中最大的所有用户访问。

近年来,微软取得了长足的进步,为 Fabric 容量提供可扩展的云功能。 为此,Fabric 中的数据工厂立即赋能一个由数十年来构建的数据集成开发者和数据集成解决方案组成的大型生态系统。 它利用了完整的特性和功能集,远远超出了前几代可用的可比功能。

当然,客户现在询问是否有机会通过在 Fabric 中托管它们来整合其数据集成解决方案。 他们经常提出如下问题:

  • 我们依赖的所有数据流功能是否在数据流 Gen2 中工作?
  • 哪些功能仅在数据流 Gen2 中可用?
  • 如何将现有数据流迁移到数据流 Gen2?
  • Microsoft 企业数据引入的路线图是什么?

本文介绍了其中许多问题的解答。

注意

迁移到 Fabric 容量的决定取决于每个客户的要求。 客户应仔细评估权益,以便做出明智的决策。 我们预计,随着时间的推移,会有机地迁移到数据流 Gen2,我们的意图是,这一过程会在客户感到舒适的条件下进行。

要清楚起见,目前没有任何计划弃用 Power BI 数据流或 Power Platform 数据流。 因此,投资的重点是关注用于企业数据引入的数据流 Gen2,这样一来,Fabric 容量提供的价值会随着时间的推移而不断增加。 选择 Fabric 容量的客户可以受益于与 Microsoft Fabric 产品路线图的一致。

自助服务和企业数据集成趋同

Fabric 中的项整合通过将资源集中在一起,简化了发现、协作和管理。 它允许中心 IT 团队更轻松地采用和集成常用的自助服务项目。 同时,它允许将任务关键的数据移动和转换服务进行操作化,使其符合公司标准,包括数据沿袭和监控。

为了支持创建者的协作和可缩放需求,Fabric 中的 Dataflow Gen2 引入了 快速复制,它通过使用 Fabric 的后端基础结构在转换期间 存储和处理 中间数据,从而有效引入大量数据。 它可以无缝处理 TB 的数据。 数据流创建者可以为转换后的数据指定 目标,例如 Fabric lakehouse、warehouse、eventhouse 或 Azure SQL 数据库,从而提供更好的数据管理和可访问性。 更重要的是,最近通过 Copilot 集成生成 AI 通过提供智能代码生成和自动化重复任务来增强数据准备体验,从而提供更简单、更快的创建复杂解决方案的路径。

通过利用通用平台,简化了工作流,从而增强了业务与 IT 之间的协作。 因此,组织能够将其数据解决方案扩展到企业级别,确保管理大量数据的高性能、灵活性和效率。

构造容量

由于分布式体系结构,Fabric 容量 对总体负载、时态峰值和高并发性不太敏感。 通过将容量合并到更大容量的Fabric SKU,客户可以实现更高的性能和吞吐量。

功能比较

下表显示了 Power BI 数据流和/或 Fabric 数据流 Gen2 中支持的功能。

特性 Power BI 数据流 第一代 Fabric 数据流 Gen2
连接性
支持所有 Power Query 数据源 是的 是的
连接到 Power BI Desktop、Excel 或 Power Apps 中的数据流并从中加载数据 是的 是的
可伸缩性
快速复制。它支持大规模引入数据,利用数据流中的数据管道 复制活动 是的
计划刷新,使数据保持最新状态 是的 是的
增量刷新利用策略自动执行增量数据加载,并帮助实现接近实时的报告生成。 是的 是的
数据管道编排,这使你可以向数据管道添加 数据流活动 并创建编排的条件事件 是的
人工智能
Copilot for Data Factory,它提供智能代码生成以轻松转换数据,并生成代码说明,以帮助更好地了解复杂任务 是的
认知服务,它通过人工智能(AI)使用 Azure 认知服务中的多种算法,以增强自助数据准备。 是的 1
自动化机器学习(AutoML),这使业务分析师能够直接在 Fabric 中训练、验证和调用机器学习(ML)模型 弃用 2
Azure 机器学习 集成,它将自定义模型公开为可在 Power Query 编辑器中调用的动态 Power Query 函数 是的 1
内容管理
数据世系视图,帮助用户了解和评估数据流项依赖项 是的 是的
部署管道,用于管理 Fabric 内容的生命周期 是的 是的
平台可伸缩性和复原能力
高级容量 体系结构,该体系结构支持增加规模和性能 是的 是的
多地理位置 支持,这有助于跨国客户解决区域、行业特定或组织数据驻留要求 3 是的
安全
虚拟网络(VNet)数据网关 连接,使 Fabric 能够在组织的虚拟网络中无缝工作 是的
本地数据网关 连接,这样就可以安全地访问组织本地数据源和 Fabric 之间的数据 是的 是的
Azure 服务标记 支持,是一组已经定义的 IP 地址,由系统自动管理,以最小化更新或更改网络安全规则时的复杂性。 是的 是的
治理
内容 认可,促进或认证有价值的高质量织物物品 是的 是的
Microsoft Purview 集成,这有助于客户管理和治理 Fabric 项目 是的 是的
Microsoft信息保护(MIP)敏感度标签Microsoft Defender for Cloud Apps 集成,以实现 数据丢失防护(DLP)。 是的 是的
监视和诊断日志记录
增强的 刷新历史记录,使你可以详细评估数据流刷新期间发生的情况。 是的
监视中心,它为 Fabric 项目提供监视功能 是的
Microsoft Fabric 容量指标应用,它为 Fabric 容量提供监视功能 是的 是的
审核日志,用于跟踪跨 Fabric 和 Microsoft 365 的用户活动 是的 是的

1 若要了解如何创建自定义函数来调用 Azure AI API 终结点,请参阅 教程:从 Power BI中存储的文本中提取关键短语。

2 自动化机器学习(AutoML)已弃用。 有关详细信息,请参阅 此官方公告

3 若要将 Power BI 数据流存储配置为使用 Azure Data Lake Storage (ADLS) Gen2,请参阅本文

注意事项

在迁移到 Dataflow Gen2 之前,规划时需要考虑其他因素。

许可

需要 Pro 或 Premium Per User (PPU) 许可证才能发布或管理 Power BI 数据流(Dataflow Gen1)。 相比之下,您只需拥有 Microsoft Fabric(免费)许可证,即可在高级容量工作区中创建数据流 Gen2。

迁移

Power Query 模板 简化在不同 Power Query 集成之间传输项目的过程。 它们有助于简化其他可能很复杂且耗时的任务。 模板将整个 Power Query 项目(包括脚本和元数据)封装到单个可移植文件中。

Power Query 模板旨在与各种集成(如 Power BI 数据流和 Fabric 数据流 Gen2)兼容,确保这些服务之间的平稳转换。

路线图

Microsoft Fabric 发布计划 公布了最新的更新和时间表,功能已为未来的发布做好准备,包括 Microsoft Fabric中 数据工厂的新增功能和计划。

有关本文的详细信息,请查看以下资源: