了解 Microsoft Fabric 中的数据流 Gen2
在我们的方案中,你需要开发一个语义模型,该模型可以将数据标准化并提供对业务的访问权限。 通过使用数据流 Gen2,你可以连接到各种数据源,然后准备和转换数据。 可以将数据直接放置到湖屋中,或使用其他目标的数据管道。
什么是数据流?
数据流是一种基于云的 ETL(提取、转换、加载)工具,用于生成和执行可缩放的数据转换过程。
数据流 Gen2 允许从各种源中提取数据、使用各种转换操作转换数据,并 将数据加载到目标中 。 使用 Power Query Online 还支持使用可视化界面来执行这些任务。
从根本上讲,数据流包括所有减少数据准备时间的转换,然后可以加载到新表中、包含在数据管道中,或者被数据分析师用作数据源。
如何使用数据流 Gen2
从传统上讲,数据工程师会花费大量时间提取、转换数据并将数据加载为可使用的格式,以便进行下游分析。 数据流 Gen2 旨在提供一种简单、可重用的方式来使用 Power Query Online 执行 ETL 任务。
如果仅选择使用数据管道,请复制数据,然后使用首选的编码语言来提取、转换和加载数据。 或者,可以先创建数据流 Gen2 来提取和转换数据。 还可以将数据加载到湖屋和其他目标中。 现在,业务方可以轻松使用策展语义模型。
可以选择将数据目标添加到你的数据流,数据流会保留所有转换步骤。 若要在转换后执行其他任务或将数据加载到不同的目标,请创建数据管道并将数据流 Gen2 活动添加到业务流程。
另一个选项可以是将数据管道和数据流 Gen2 用于 ELT(提取、加载、转换)过程。 对于此操作顺序,请使用管道将数据提取并加载到首选目标(例如湖屋)中。 然后创建数据流 Gen2 以连接到湖屋数据来清理和转换数据。 在这种情况下,你要提供数据流作为策展语义模型,供数据分析师开发报表。
也可以水平分区数据流。 在你创建全局数据流后,数据分析师可以使用数据流针对特定需求创建专用语义模型。
数据流使你能够提升可重用的 ETL 逻辑,从而避免创建更多到数据源的连接。 数据流提供各种各样的转换,可以手动运行数据流、也可以按刷新计划运行,或者作为数据管道业务流程的一部分运行。
提示
使数据流可发现,以便数据分析师还可以通过 Power BI Desktop 连接到数据流。 这减少了报表开发的数据准备。
权益和限制
在 Microsoft Fabric 中,可通过多种方式访问 ETL 或 ELT 数据。 请考虑使用数据流 Gen2 的优势和限制。
优点:
- 使用一致的数据(例如标准日期维度表)扩展数据。
- 允许自助服务用户单独访问数据仓库的子集。
- 使用数据流优化性能,可以提取一次数据以供重复使用,从而减少较慢源的数据刷新时间。
- 通过仅向较大的分析师组公开数据流来简化数据源复杂性。
- 通过允许用户在将数据加载到目标之前清理和转换数据,确保数据的一致性和质量。
- 通过提供从各种源引入数据的低代码接口来简化数据集成。
的限制:
- 数据流不是数据仓库的替代项。
- 不支持行级安全性。
- 需要 Fabric 容量工作区。