跨环境和工作区重用数据流的最佳做法

本文讨论有效且高效地重用数据流的最佳做法集合。 阅读本文以避免在开发数据流以供重复使用时出现设计缺陷和潜在性能问题。

将数据转换数据流与暂存/提取数据流分开

如果数据流执行所有操作,则很难在其他数据流中或为其他目的重复使用其表。 要重复使用的最佳数据流是那些仅执行一些操作的数据流。 创建专门处理一项特定任务的数据流是重复使用它们的最佳方法之一。 如果你有一组用作暂存数据流的数据流,则其唯一操作就是从源系统中按原样提取数据。 这些数据流可以在多个其他数据流中重复使用。

如果你有数据转换数据流,则可以将它们拆分为执行常见转换的数据流。 每个数据流只执行一些操作。 每个数据流的这几个操作可确保该数据流的输出可由其他数据流重复使用。

Dataflow doing only a few actions.

图像中的数据从数据源提取到暂存数据流,其中表存储在 Dataverse 或 Azure Data Lake 存储中。 然后,数据移动到转换数据流,其中数据进行转换并转换为数据仓库结构。 最后,将数据加载到 Power BI 语义模型中。

使用多个工作区

每个工作区(或环境)仅适用于该工作区的成员。 如果你在一个工作区中生成所有数据流,则可以最大限度地减少数据流的重复使用。 你可以为正在处理公司范围内的表的数据流提供一些通用工作区。 你还可以提供某个工作区以让数据流跨多个部门来处理表。 此外,你还可以为将仅在特定部门中使用数据流提供一些工作区。

Image showing the separate workspaces.

在工作区上设置正确的访问级别

若要授予对其他工作区中的数据流的访问权限,以使用工作区中数据流的输出,只需为数据流提供工作区查看访问权限。 若要详细了解 Power BI 工作区中的其他角色,请转到新工作区中的角色

Screenshot showing how to access to the Power BI workspace.

认可 Power BI 中的数据流

租户组织中可能创建了许多数据流,用户可能很难知道哪个数据流最可靠。 数据流的作者或具有其编辑权限的用户可以在以下三个级别认可数据流:无认可、升级或认证。

这些级别的认可可帮助用户更轻松、更快地找到可靠的数据流。 首先会显示具有更高认可级别的数据流。 Power BI 管理员可以将认可数据流至认证级别的能力委派给其他人。 详细信息:认可 - 提升和认证 Power BI 内容

Screenshot of the Power Query Navigator showing the promoted and certified endorsement labels on specific dataflows.

在多个数据流中分隔表

一个数据流中可以有多个表。 在多个数据流中拆分表的原因之一是本文前面介绍的关于分隔数据引入数据流和数据转换数据流的信息。 在多个数据流中具有表的另一个充分理由是需要与其他表不同的刷新计划。

在下图所示的示例中,需要每四小时刷新一次销售表。 日期表需要每天刷新一次才能使当前日期记录保持最新。 产品映射表只需每周刷新一次。 如果一个数据流中有所有这些表,则只有一个适用于所有这些表的刷新选项。 但是,如果将这些表拆分为多个数据流,则可以单独计划每个数据流的刷新。

Image showing dataflows with different schedules for the refresh.

数据流表的适当表候选项

在桌面工具中使用 Power Query 开发解决方案时,你可能会问自己:这些表中哪一个很适合移到数据流? 要移动到数据流的最佳表是需要在多个解决方案或多个环境或服务中使用的那些表。 例如,下图中显示的 Date 表需要在两个单独的 Power BI 文件中使用。 可以将数据流中的表生成为表,并在这些 Power BI 文件中重复使用该表,而不是复制每个文件中的表。

Image showing a shared table used in a dataflow.