Dataflows Gen2 中的快速复制

本文介绍适用于 Microsoft Fabric 的数据工厂中的 Dataflows Gen2 的快速复制功能。 数据流有助于引入和转换数据。 通过使用 SQL DW 计算引入数据流横向扩展,可以大规模转换数据。 但是,需要首先引入数据。 引入快速复制后,可以通过简单的数据流体验以及管道复制活动的可缩放后端引入 TB 级数据。

启用此功能后,当数据大小超过特定阈值时,数据流会自动切换后端,而无需在数据流创作期间进行任何更改。 刷新数据流后,可以通过查看刷新历史记录中显示的引擎类型来检查运行期间是否使用了快速复制。

启用“需要快速复制”选项后,如果不使用快速复制,则会取消数据流刷新。 这有助于避免等待刷新超时后再继续。 此行为还有助于在调试会话中使用数据测试数据流行为,同时减少等待时间。 使用查询步骤窗格中的快速复制指示器,可以轻松检查查询是否可以通过快速复制运行。

显示快速复制指示器在查询步骤窗格中出现的位置的屏幕截图。

先决条件

  • 必须具有 Fabric 容量。
  • 对于文件数据,文件采用 .csv 或 parquet 格式,大小至少为 100 MB,并存储在 Azure Data Lake Storage (ADLS) Gen2 或 Blob 存储帐户中。
  • 对于包括 Azure SQL DB 和 PostgreSQL 在内的数据库,数据源中有 500 万行或更多的数据。

注意

可以通过选择“需要快速复制”设置来绕过阈值,以强制执行快速复制。

连接器支持

目前以下 Dataflow Gen2 连接器支持快速复制:

  • ADLS Gen2
  • Blob 存储
  • Azure SQL DB
  • Lakehouse
  • PostgreSQL
  • 本地 SQL Server
  • 仓库
  • Oracle
  • Snowflake

连接到文件源时,复制活动仅支持几个转换:

  • 合并文件
  • 选择列
  • 更改数据类型
  • 重命名列
  • 删除列

仍然可以通过将引入和转换步骤拆分为单独的查询来应用其他转换。 第一个查询实际检索数据,第二个查询引用其结果,以便可以使用 DW 计算。 对于 SQL 源,支持属于本机查询一部分的任何转换。

直接将查询加载到输出目标时,当前仅支持湖屋目标。 如果想使用其他输出目标,可以先暂存查询,然后再引用它。

如何使用快速复制

  1. 导航到相应的 Fabric 端点。

  2. 导航到高级工作区并创建 Dataflows Gen2。

  3. 在新数据流的“主页”选项卡上,选择“选项”:

    显示在“主页”选项卡上选择“Dataflows Gen2 选项”的位置的屏幕截图。

  4. 然后,选择“选项”对话框中的“缩放”选项卡,并选中“允许使用快速复制连接器”复选框以打开快速复制。 这时,关闭“选项”对话框。

    显示在“选项”对话框的“缩放”选项卡上启用快速复制的位置的屏幕截图。

  5. 选择“获取数据”,然后选择 ADLS Gen2 源,并填写容器的详细信息。

  6. 使用合并文件功能。

    显示突出显示“合并”选项的“预览文件夹数据”窗口的屏幕截图。

  7. 若要确保快速复制,请仅应用本文连接器支持部分中列出的转换。 如果需要应用更多转换,请先暂存数据,稍后再引用查询。 对引用的查询进行其他转换。

  8. (可选)可以通过右键单击查询来选择并启用该选项来设置查询的“需要快速复制”选项。

    显示在查询的右键单击菜单上选择“需要快速复制”选项的屏幕截图。

  9. (可选)目前,只能将湖屋配置为输出目的地。 对于任何其他目的地,请暂存查询,稍后在另一个可在输出到任何源的查询中引用它。

  10. 检查快速复制指示器,查看查询是否可以使用快速复制运行。 如果是,则引擎类型将显示 CopyActivity

    显示指示已使用管道 CopyActivity 引擎刷新详细信息的屏幕截图。

  11. 发布数据流。

  12. 刷新完成后检查以确认使用了快速复制。

已知限制

  1. 需要本地数据网关版本 3000.214.2 或更高版本才能支持快速复制。
  2. 不支持 VNet 网关。
  3. 不支持将数据写入 Lakehouse 中的现有表。
  4. 不支持固定架构。