Microsoft Fabric 的数据工厂中的复制作业(预览版)是什么

Fabric 中的数据工厂使用户能够通过直观直观的界面无缝集成来自 100 多个内置连接器(源和目标)的数据。 复制活动(在数据管道中进行)有助于数据引入。 同时,数据流 Gen2 支持数据转换,管道协调集成流。

复制作业的优点

虽然数据管道中的复制活动使用批量/批处理操作处理数据引入,但在数据工厂中创建数据管道对许多不熟悉字段的用户仍然具有挑战性,并且学习曲线更陡峭。 因此,我们很高兴引入复制作业,将数据引入体验提升到更简化且用户友好的过程,可以从任何源到任何目标。 现在,复制数据比以往更容易。 此外,复制作业还支持各种数据传送样式,包括批量复制和增量复制,从而灵活地满足特定需求。

显示“复制作业及其结果”窗格的屏幕截图。

复制作业与其他数据移动方法的一些优点包括:

  • 直观体验:体验无缝数据复制,且不会泄露,使其比以往更容易。
  • 效率:轻松启用增量复制,减少手动干预。 这种效率等于降低资源利用率和更快的复制持续时间。
  • 灵活性:在享受简洁性的同时,还可以灵活地控制数据移动。 选择要复制哪些表和列,映射数据,定义读/写行为,并根据你的需求设置一次性任务或定期操作的计划。
  • 可靠的性能:无服务器设置支持大规模并行传输数据,从而最大程度地提高系统的数据移动吞吐量。

受支持的连接器

目前,可以使用复制作业进行云数据传输或通过网关从本地数据存储复制数据。 复制作业支持以下数据存储作为源和目标:

  • Azure SQL DB
  • 本地 SQL Server
  • Fabric Warehouse
  • Fabric Lakehouse
  • Amazon S3
  • Azure Data Lake Storage Gen2
  • Azure Blob 存储
  • Amazon RDS for SQL Server

产品团队正在探索进一步的连接器支持,因此请关注最新动态

复制行为

可从以下数据交付样式中进行选择。

  • 完整复制模式:每个复制作业都一次将源中的所有数据复制到目标。
  • 增量复制模式:初始作业运行将复制所有数据,后续作业运行仅复制自上次运行以来的更改。 更改的数据将追加到目标存储中。

还可以选择将数据写入目标存储的方式。

默认情况下,复制作业将数据追加到目标,这样就不会错过任何更改历史记录。 但是,还可以调整写入行为以更新插入或覆盖

  • 将数据复制到存储存储时:表或文件中的新行将复制到目标中的新文件。 如果目标存储中已存在同名的文件,将覆盖该文件。
  • 将数据复制到数据库时:表或文件中的新行将追加到目标表。 可以更改写入行为以更新插入(在 SQL DB 或 SQL Server 上)或覆盖(在 Fabric Lakehouse 表上)。

增量列

在增量复制模式下,需要为每个表选择一个增量列来标识更改。 复制作业将此列用作水印,将其值与上次运行的相同值进行比较,以便仅复制新的或更新的数据。 增量列必须是时间戳或增加的 INT。

上市区域

复制作业与管道具有相同的区域可用性。

定价

复制作业使用相同的计费计量:数据移动,其消耗率相同。