如何使用复制活动复制数据
在数据管道中,可以使用复制活动在云数据存储中复制数据。
复制数据后,可以使用其他活动进一步转换和分析数据。 还可使用复制活动发布有关商业智能 (BI) 和应用程序消耗的转换和分析结果。
若要将数据从源复制到目标,运行复制活动的服务将执行以下步骤:
- 读取源数据存储中的数据。
- 执行序列化/反序列化、压缩/解压缩、列映射等。 它根据配置执行这些操作。
- 将数据写入目标数据存储。
先决条件
若要开始,必须满足以下先决条件:
具有活动订阅的 Microsoft Fabric 租户帐户。 免费创建帐户。
确保具有已启用 Microsoft Fabric 的工作区。
使用复制助手添加复制活动
按照以下步骤使用复制助手设置复制活动。
从复制助手开始
配置源
从类别中选择数据源类型。 你将使用 Azure Blob 存储作为示例。 选择“Azure Blob 存储”,然后选择“下一步”。
通过选择“创建新连接”,创建与数据源的连接。
选择“创建新连接”后,填写所需的连接信息,然后选择“下一步”。 有关为每种类型的数据源创建连接的详细信息,请参阅每个 连接器文章。
如果有现有连接,则可以选择“现有连接”,然后从下拉列表中选择连接。
选择要在此源配置步骤中复制的文件或文件夹,然后选择“下一步”。
配置目标
从类别中选择数据源类型。 你将使用 Azure Blob 存储作为示例。 可以按照上一部分中的步骤创建链接到新 Azure Blob 存储帐户的新连接,也可以使用连接下拉列表中的现有连接。 测试连接和编辑功能可用于每个选定的连接。
配置源数据并将其映射到目标。 然后选择“下一步”以完成目标配置。
注意
只能在同一个复制活动中使用单个本地数据网关。 如果源和接收器都是本地数据源,则必须使用相同的网关。 要在具有不同网关的本地数据源之间移动数据,必须在一个复制活动中使用第一个网关复制到中间云源。 然后,可以使用另一个复制活动,通过第二个网关从中间云源复制数据。
查看并创建复制活动
完成后,复制活动将添加到数据管道画布。 选中后,所有设置(包括此复制活动的高级设置)都将位于选项卡下。
现在,可以使用此单一复制活动保存数据管道,也可以继续设计数据管道。
直接添加复制活动
请按照以下步骤直接添加复制活动。
添加“复制活动”
在“常规”选项卡下配置常规设置
若要了解如何配置常规设置,请参阅 常规。
在“源”选项卡下配置源
选择“连接”旁边的“+ 新建”以创建与数据源的连接。
从弹出窗口中选择数据源类型。 你将使用 Azure SQL Database 作为示例。 选择“Azure SQL 数据库”,然后选择“继续” 。
它会导航到连接创建页。 在面板上填写所需的连接信息,然后选择创建。 有关为每种类型的数据源创建连接的详细信息,请参阅每个 连接器文章。
成功创建连接后,它将返回到数据管道页。 然后选择“刷新”以从下拉列表中提取创建的连接。 也可以直接从下拉列表中选择现有的 Azure SQL 数据库连接(如果之前已创建该连接)。 测试连接和编辑功能可用于每个选定的连接。 然后在“连接类型”中选择“Azure SQL 数据库”。
指定要复制的表。 选择“预览数据”以预览源表。 还可以使用 查询 和 存储过程 从源读取数据。
展开“高级”以获取更多高级设置。
在“目标”选项卡下配置目标
选择目标类型。 它可以是工作区(如 Lakehouse)的内部一流数据存储,也可以是外部数据存储。 你将使用 Lakehouse 作为示例。
选择在工作区数据存储类型中使用 Lakehouse。 选择“+ 新建”,然后导航到 Lakehouse 创建页面。 指定 Lakehouse 名称,然后选择“创建”。
成功创建连接后,它将返回到数据管道页。 然后选择“刷新”以从下拉列表中提取创建的连接。 也可以直接从下拉列表中选择现有的 Lakehouse 连接(如果之前已创建)。
指定表或设置文件路径,以将文件或文件夹定义为目标。 在此处选择“表”并指定要写入数据的表。
展开“高级”以获取更多高级设置。
现在,可以使用此单一复制活动保存数据管道,也可以继续设计数据管道。
在“映射”选项卡下配置映射
如果应用的连接器支持映射,则可以转到“映射”选项卡来配置映射。
选择“导入架构”以导入数据架构。
可以看到自动映射已显示。 指定 源 列和 目标 列。 如果在目标中创建新表,则可以在此处自定义 目标 列名称。 如果要将数据写入现有目标表,则无法修改现有 目标 列名称。 还可以查看源列和目标列的 类型。
此外,还可以选择“+ 新建映射”以添加新映射,选择“清除”以清除所有映射设置,选择“重置”以重置所有映射“源”列。
在“设置”选项卡下配置其他设置
设置 选项卡包含性能、过渡等设置。
请参阅下表以了解每个设置的描述。
设置 | 说明 | JSON 脚本属性 |
---|---|---|
智能吞吐量优化 | 指定以优化吞吐量。 可以选择: • 自动 • 标准 • 均衡 • 最大值 选择“自动”时,将根据源-目标对和数据模式动态应用最佳设置。 还可以自定义吞吐量,自定义值可以是 2-256,而值越高意味着收益越大。 |
dataIntegrationUnits |
复制并行度 | 指定数据加载将使用的并行度。 | parallelCopies |
容错 | 选择此选项时,可以忽略复制过程中发生的一些错误。 例如,源存储与目标存储之间的不兼容行、在数据移动期间删除的文件等。 | • enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden invalidFileName |
启用日志记录 | 选择此选项时,可以记录复制的文件、跳过的文件和行。 | / |
启用暂存 | 指定是否要通过过渡暂存存储复制数据。 仅针对有利方案启用暂存。 | enableStaging |
数据存储类型 | 启用暂存时,可以选择“工作区”和“外部”作为数据存储类型。 | / |
对于“工作区” | ||
工作区 | 指定使用内置暂存存储。 | / |
对于“外部” | ||
暂存帐户连接 | 指定 Azure Blob 存储或 Azure Data Lake Storage Gen2 的连接,以指代用作过渡暂存存储的存储实例。 如果没有暂存连接,请创建一个。 | 连接(在 externalReferences 下) |
存储路径 | 指定要包含此暂存数据的路径。 如果不提供路径,该服务将创建容器以存储临时数据。 只在使用具有共享访问签名的存储时,或者要求临时数据位于特定位置时才指定路径。 | path |
启用压缩 | 指定是否应先压缩数据,再将数据复制到目标。 此设置可减少传输的数据量。 | enableCompression |
Preserve | 指定在数据复制期间是否保留元数据/ACL。 | 保护区 |
注意
若使用暂存复制并启用压缩,则不支持对暂存 Blob 连接的服务主体身份验证。
在复制活动中配置参数
参数可用于控制管道及其活动的行为。 可以使用“添加动态内容”来指定复制活动属性的参数。 让我们以指定 Lakehouse/Data Warehouse/KQL 数据库为例,了解如何使用它。
在源或目标中,在将“工作区”选择为数据存储类型,并将“Lakehouse”/“Data Warehouse”/“KQL 数据库”指定为工作区数据存储类型后,在“Lakehouse”或“Data Warehouse”或“KQL 数据库”下拉列表中选择“添加动态内容”。
在弹出窗格“添加动态内容”中的“参数”选项卡下,选择 +。
指定参数的名称,并根据需要为其指定默认值,也可以在管道中选择“运行”后指定参数的值。
请注意,参数值应为 Lakehouse/Data Warehouse/KQL 数据库对象 ID。 若要获取 Lakehouse/数据仓库Data Warehouse/KQL 数据库对象 ID,请在工作区中打开 Lakehouse/Data Warehouse/KQL 数据库,并且 ID 位于 URL 中的
/lakehouses/
或/datawarehouses/
或/databases/
之后。Lakehouse 对象 ID:
Data Warehouse 对象 ID:
KQL 数据库对象 ID:
选择“保存”,以返回到 添加动态内容 窗格。 然后选择参数,使其显示在表达式框中。 然后选择“确定”。 你将返回到管道页,可以看到在 Lakehouse 对象 ID/Data Warehouse 对象 ID/KQL 数据库对象 ID 后指定参数表达式。