什么是数据流?

提示

Microsoft Fabric 中的数据工厂内试用数据流 Gen2,这是面向企业的一体化分析解决方案。 Microsoft Fabric 涵盖从数据移动到数据科学、实时分析、商业智能和报告的所有内容。 了解如何免费开始新的试用

数据流是基于云的自助式数据准备技术。 借助数据流,客户可将数据引入、转换和加载到 Microsoft Dataverse 环境、Power BI 工作区或组织的 Azure Data Lake Storage 帐户。 数据流是使用 Power Query 创作的,这是许多 Microsoft 产品中(包括 Excel 和 Power BI)已有的统一数据连接和准备体验。 客户可以触发数据流,以便按需或按计划自动运行,同时数据会始终保持最新。

可以在多个 Microsoft 产品中创建数据流

数据流会在多个 Microsoft 产品中特别推荐,且无需创建或运行特定于数据流的许可证。 数据流可在 Power Apps、Power BI 和 Dynamics 365 Customer Insights 中使用。 创建和运行数据流的功能会与这些产品的许可证进行捆绑。 数据流功能最常存在于它们所推荐的所有产品中,但某些特定于产品的功能可能存在于在一个产品与另一产品中创建的数据流中。

数据流如何工作?

Image of how dataflows function, from the source data, to the transformation process, and then to storage.

上图显示了如何定义数据流的总体视图。 数据流会从不同数据源获取数据(现已支持 80 多个数据源)。 然后,根据配有 Power Query 创作体验的转换,数据流会使用数据流引擎来转换数据。 最后,数据会加载到输出目标,它可以是 Microsoft Power Platform 环境、Power BI 工作区或组织的 Azure Data Lake Storage 帐户。

数据流会在云中运行

数据流均基于云。 创建和保存数据流时,其定义将存储在云中。 数据流也运行于云中。 但是,如果数据源位于本地,则可使用本地数据网关将数据提取到云中。 触发数据流运行时,会在云中进行数据转换和计算,而目标也始终位于云中。

Image of how dataflows run in the cloud, from the data source, to the dataflow running in the cloud, and then to storage.

数据流使用功能强大的转换引擎

Power Query 是数据流中使用的数据转换引擎。 此引擎足以支持很多高级转换。 它还使用一个名为 Power Query 编辑器的简易、强大的图形用户界面。 可将数据流与此编辑器配合使用,以更快速、更轻松地开发数据集成解决方案。

Screenshot showing an example of Power Query transformations.

数据流与 Microsoft Power Platform 和 Dynamics 365 的集成

由于数据流将生成的表存储在基于云的存储中,因此其他服务可以与数据流生成的数据进行交互。

Image of how a dataflow integrates with Microsoft Power Platform and Dynamics 365.

例如,Power BI、Power Apps、Power Automate、Power Virtual Agents 和 Dynamics 365 应用程序可以通过连接到 Dataverse(Power Platform 数据流连接器)或直接通过湖获取数据流生成的数据,具体取决于在数据流创建时配置的目标。

数据流的优点

以下列表突出显示了使用数据流的一些优点:

  • 数据流将数据转换层与 Power BI 解决方案中的建模层和可视化层分离。

  • 数据转换代码可以驻留在一个中心位置(数据流),而不是分散在多个项目中。

  • 数据流创建者只需要 Power Query 技能。 在具有多个创建者的环境中,数据流创建者可以是共同构建整个 BI 解决方案或操作应用程序的团队的一部分。

  • 数据流与产品无关。 它不是 Power BI 组件,因为你可在其他工具和服务中获取其数据。

  • 数据流利用 Power Query,这是一种功能强大的图形化自助式数据转换体验。

  • 数据流完全在云中运行。 无需额外的基础结构。

  • 可以使用 Power Apps、Power BI 和 Customer Insights 的许可证,通过多个选项开始使用数据流。

  • 尽管数据流能够进行高级转换,但它们专为自助服务方案而设计,而不需要 IT 或开发人员背景。

数据流的用例场景

可将数据流用于多种用途。 以下场景提供了数据流的部分常见用例示例。

从旧系统迁移数据

在此场景中,组织已决定将 Power Apps 用于新的用户界面体验,而不是旧的本地系统。 Power Apps、Power Automate 和 AI Builder 均将 Dataverse 用作主要数据存储系统。 现有本地系统中的当前数据可通过数据流迁移到 Dataverse,然后这些产品便可使用这些数据。

使用数据流来构建数据仓库

可将数据流用作其他提取、转换、加载 (ETL) 工具的替代品来构建数据仓库。 在此场景中,公司的数据工程师决定使用数据流构建其采用星型架构设计的数据仓库,包括 Data Lake Storage 中的事实数据表和维度表。 然后,Power BI 通过从数据流获取数据来生成报告和仪表板。

Image of how to build a data warehouse using dataflows.

使用数据流构建维度模型

可将数据流用作其他 ETL 工具的替代品来生成维度模型。 例如,公司的数据工程师决定使用数据流构建采用星型架构设计的维度模型,包括 Azure Data Lake Storage Gen2 中的事实数据表和维度表。 然后,Power BI 通过从数据流获取数据来生成报告和仪表板。

Image of how to build a dimensional model using dataflows.

跨多个 Power BI 解决方案集中准备和重用语义模型

如果多个 Power BI 解决方案使用相同的转换后版本的表,则创建表的流程会多次重复。 这会增加源系统上的负载,消耗更多资源,并创建具有多个故障点的重复数据。 相反,可以创建单个数据流来计算所有解决方案的数据。 然后,Power BI 可在所有解决方案中重复使用转换的结果。 如果以此方式进行使用,数据流可成为强大 Power BI 实施体系结构的一部分,而该体系结构可避免重复 Power Query 代码并降低数据集成层的维护成本。

Image of how tables can be reused across multiple solutions.

后续步骤

以下文章提供数据流的进一步研究材料。