在复制活动中配置 Azure Blob 存储
本文概述了如何使用数据管道中的复制活动从/向 Azure Blob 存储复制数据。
支持的格式
Azure Blob 存储支持以下文件格式。 请参阅每一篇介绍基于格式的设置的文章。
支持的配置
有关复制活动下每个选项卡的配置,请分别转到以下各部分。
常规
若要配置“常规”设置选项卡,请参阅“常规”设置指导。
源
复制活动的“源”选项卡下的 Azure Blob 存储支持以下属性。
需要以下属性:
- 数据存储类型:选择“外部”。
- 连接:从连接列表中选择 Azure Blob 存储连接。 如果不存在连接,则选择“新建”来创建新的 Azure Blob 存储连接。
- 文件路径:选择“浏览”以选择要复制的文件,或手动填写路径。
- 文件设置:选择“文件设置”以配置文件格式。 有关不同文件格式的设置,请参阅支持格式的文章了解详细信息。
在“高级”下,可以指定以下字段:
文件路径类型:可以选择“文件路径”、“前缀”、“通配符文件路径”、“文件列表”作为文件路径类型。 每个设置的配置为:
文件路径:如果选择此类型,则可以从前面指定的给定容器或文件夹/文件路径复制数据。
前缀:配置的给定容器下的 Blob 名称的前缀,用于筛选源 Blob。 名称以
container/this_prefix
开头的 Blob 会被选择。 它利用了 Blob 存储的服务端筛选器。如果你使用前缀并选择在复制到基于文件的目标时保留层次结构,系统会保留前缀中最后一个“/”后面的子路径。 例如,如果在源为
container/folder/subfolder/file.txt
的情况下将前缀配置为folder/sub
,则保留的文件路径为subfolder/file.txt
。通配符文件路径:指定给定 Blob 容器下包含通配符的文件夹或文件路径,以筛选源文件夹或文件。
允许的通配符为:
*
(匹配零个或更多字符)和?
(匹配零个或单个字符)。 如果文件夹名内包含通配符或此转义字符,请使用^
进行转义。 如需更多示例,请转到文件夹和文件筛选器示例。通配符文件夹路径:在给定容器下指定带有通配符的文件夹路径,以筛选源文件夹。
通配符文件名:指定给定容器和文件夹路径(或通配符文件夹路径)下包含通配符的文件名,用于筛选源文件。
文件列表:指示要复制到的给定文件集。 在文件列表路径中,输入或浏览到包含要复制的文件列表的文本文件,每行一个文件,即每个文件的相对路径。
使用此选项时,请勿指定文件名。 如需更多示例,请转到文件列表示例。
递归方式:如果选中此复选框,则输入文件夹及其子文件夹中的所有文件都会以递归方式处理。 如果取消选中该复选框,则将只处理所选文件夹中的复选框。 选择单个文件时,将禁用此设置。
完成后删除文件:如果选中此复选框,则会在二进制文件成功移到目标存储后将其从源存储中删除。 文件删除按文件进行。因此,当复制活动失败时,你会注意到一些文件已经复制到目标并从源中删除,而另一些文件仍保留在源存储中。
注意
此属性仅在二进制文件复制方案中有效。
最大并发连接数:此属性指示活动运行期间与数据存储建立的并发连接的上限。 仅在要限制并发连接时指定一个值。
目标
复制活动的“目标”选项卡下的 Azure Blob 存储支持以下属性。
需要以下属性:
- 数据存储类型:选择“外部”。
- 连接:从连接列表中选择 Azure Blob 存储连接。 如果连接不存在,则通过选择“新建”创建新的 Azure Blob 存储连接。
- 文件路径:选择“浏览”以选择要复制的文件,或手动填写路径。
- 文件设置:选择“文件设置”以配置文件格式。 有关不同文件格式的设置,请参阅支持格式的文章了解详细信息。
在“高级”下,可以指定以下字段:
复制活动:定义以基于文件的数据存储中的文件为源时的复制行为。 可以从下拉列表中选择“添加动态内容”、“无”、“平展层次结构”或“保留层次结构”。
添加动态内容:若要指定属性值的表达式,请选择“添加动态内容”。 此选项会打开表达式生成器,在其中可以通过支持的系统变量、活动输出、函数和用户指定的变量或参数来生成表达式。 若要了解表达式语言,请转到表达式和函数。
无:选择此选项则不使用任何复制行为。
平展层次结构:源文件夹中的所有文件都位于目标文件夹的第一级别。 目标文件具有自动生成的名称。
保留层次结构:将文件层次结构保留到目标文件夹中。 从源文件到源文件夹的相对路径与从目标文件到目标文件夹的相对路径相同。
最大并发连接:活动运行期间与数据存储建立的并发连接的上限。 仅在要限制并发连接时指定一个值。
块大小 (MB):指定用于将数据写入块 Blob 的块大小(以 MB 为单位)。 有关详细信息,请转到关于块 Blob。
元数据:在复制到目标时设置自定义元数据。
metadata
数组下的每个对象都表示一个额外的列。name
定义元数据键名称,value
表示该键的数据值。 如果使用了保留属性功能,则指定的元数据会与源文件元数据联合,或者会被其覆盖。允许的数据值为:
$$LASTMODIFIED
:保留变量指示存储源文件的上次修改时间。 仅适用于二进制格式的基于文件的源。表达式
静态值
映射
对于“映射 ”选项卡配置,请转到“映射”选项卡下的“配置映射”。如果选择“二进制”作为文件格式,则不支持映射。
设置
对于“设置”选项卡配置,请查看“设置”选项卡下的“配置其他设置”。
表摘要
下表包含有关 Azure Blob 存储中复制活动的详细信息。
源信息
名称 | 描述 | 值 | 必选 | JSON 脚本属性 |
---|---|---|---|---|
数据存储类型 | 你的数据存储类型。 | 外部 | 是 | / |
Connection | 与源数据存储的连接。 | <你的连接> | 是 | 连接 |
文件路径 | 源数据的文件路径。 | <源的文件路径> | 是 | 容器 (container) fileName |
文件路径类型 | 要使用的文件路径类型。 | • 文件路径 • 前缀 • 通配符文件夹路径、通配符文件名 • 文件列表 |
否 | • 前缀 • wildcardFolderPath, wildcardFileName • fileListPath |
Recursively | 以递归方式处理输入文件夹及其子文件夹中的所有文件,或者仅处理所选文件夹中的文件。 选择单个文件时,将禁用此设置。 | 已选择或取消选择 | 否 | recursive |
完成后删除文件 | 移动到目标存储后,源数据存储中的文件将被立即删除。 文件删除按文件进行。因此,当复制活动失败时,你可以发现,一些文件已经复制到目标并从源中删除,而另一些文件仍在源存储中。 | 已选择或取消选择 | 否 | deleteFilesAfterCompletion |
最大并发连接数 | 活动运行期间与数据存储建立的并发连接的上限。 仅在要限制并发连接时指定一个值。 | <最大并发连接数> | 否 | maxConcurrentConnections |
目标信息
名称 | 描述 | 值 | 必选 | JSON 脚本属性 |
---|---|---|---|---|
数据存储类型 | 你的数据存储类型。 | 外部 | 是 | / |
Connection | 与目标数据存储的连接。 | <你的连接> | 是 | 连接 |
文件路径 | 目标数据的文件路径。 | 源的文件路径 | 是 | 容器 (container) fileName |
复制行为 | 定义将文件从一个文件系统(如存储)复制到另一个文件系统时的行为(例如,从一个 Blob 存储复制到另一个 Blob 存储)。 | • 无 • 添加动态内容 • 平展层次结构 • 保留层次结构 |
否 | copyBehavior |
最大并发连接数 | 活动运行期间与数据存储建立的并发连接的上限。 仅在要限制并发连接时指定一个值。 | <最大并发连接数> | 否 | maxConcurrentConnections |
块大小 (MB) | 将数据写入 Azure Blob 存储时,指定块大小(以 MB 为单位)。 允许的值介于 4 MB 到 100 MB 之间。 | <块大小> | 否 | blockSizeInMB |
元数据 | 在复制到目标时设置自定义元数据。 | • $$LASTMODIFIED • 表达式 • 静态值 |
否 | metadata |