Microsoft Fabric 中数据工厂的二进制格式

本文概述了如何在数据工厂中配置二进制格式。

支持的功能

以下活动和连接器支持使用二进制格式作为源和目标。

类别 连接器/活动
支持的连接器 Amazon S3
Amazon S3 兼容
Azure Blob 存储
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure 文件
文件系统
FTP
Google Cloud Storage
HTTP
Lakehouse 文件
Oracle 云存储
SFTP
支持的活动 复制活动(源/目标)
GetMetadata 活动
Delete 活动

复制活动中的二进制格式

若要配置二进制格式,请在数据管道复制活动的源或目标中选择连接,然后在“文件格式”下拉列表中选择“二进制”。 选择“设置”以进一步配置此格式。

显示文件格式按钮的屏幕截图。

注意

在复制活动中使用二进制格式时,源和目标应都使用二进制格式。

二进制文件作为源

在“”选项卡下的“文件格式”部分选择“设置”后,弹出的“文件格式设置”对话框中将显示以下属性。

显示文件格式设置的屏幕截图。

  • 压缩类型:用于读取二进制文件的压缩编解码器。 可以从下拉列表中选择“”、“bzip2”、“gzip”、“deflate”、“ZipDeflate”、“TarGzip”或“tar”类型。

    如果选择“ZipDeflate”作为压缩类型,则“将 zip 文件名保留为文件夹”将显示在“”选项卡的“高级”设置”下。

    • 将 zip 文件名保留为文件夹:指示是否在复制过程中以文件夹结构形式保留源 zip 文件名。
      • 如果选中此框(默认),则服务会将解压缩的文件写入 <specified file path>/<folder named as source zip file>/
      • 如果未选中此框,则服务会将解压缩的文件直接写入 <specified file path>。 请确保不同的源 zip 文件中没有重复的文件名,以避免产生冲突或出现意外行为。

    如果选择“TarGzip/tar”作为压缩类型,则“将压缩文件名保留为文件夹”将显示在“”选项卡的“高级”设置”下。

    • 将压缩文件名保留为文件夹:指示是否在复制过程中以文件夹结构形式保留源压缩文件名。
      • 如果选中此框(默认),则服务会将解压缩的文件写入 <specified file path>/<folder named as source compressed file>/
      • 如果未选中此框,则服务会将解压缩的文件直接写入 <specified file path>。 请确保不同的源 zip 文件中没有重复的文件名,以避免产生冲突或出现意外行为。
  • 压缩级别:压缩比。 可以从“最佳”或“最快”中进行选择。

    • 最快:尽快完成压缩操作,不过,无法以最佳方式压缩生成的文件。
    • 最佳:以最佳方式完成压缩操作,不过,需要耗费更长的时间。 有关详细信息,请转到压缩级别文章。

在“”选项卡中的“高级设置”下,将显示与二进制格式相关的其他属性。

  • 完成后删除文件:指示是否会在二进制文件成功移到目标存储后将其从源存储中删除。 文件删除以每文件为单位。 因此,当复制活动失败时,一些文件已经复制到目标并从源中删除,而另一些文件仍保留在源存储中。

二进制作为目标

在“目标”选项卡下的“文件格式”部分选择“设置”后,弹出的“文件格式设置”对话框中将显示以下属性。

显示选择文件格式的屏幕截图。

  • 压缩类型:用于写入二进制文件的压缩编解码器。 可以从下拉列表中选择“”、“bzip2”、“gzip”、“deflate”、“ZipDeflate”、“TarGzip”或“tar”类型。

  • 压缩级别:压缩比。 可以从“最佳”或“最快”中进行选择。

    • 最快:尽快完成压缩操作,不过,无法以最佳方式压缩生成的文件。
    • 最佳:以最佳方式完成压缩操作,不过,需要耗费更长的时间。 有关详细信息,请转到压缩级别文章。

表摘要

二进制文件作为源

使用二进制格式时,复制活动“”部分支持以下属性。

名称 描述 必选 JSON 脚本属性
文件格式 要使用的文件格式。 二进制 类型(datasetSettings):
二进制
压缩类型 用于读取二进制文件的压缩编解码器。 从下列项中进行选择:

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
类型(compression 下):

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
压缩级别 压缩率。 允许的值为 Optimal 或 Fastest。 最佳最快 级别(compression 下):
最快
最佳
将 zip 文件名保留为文件夹 指示是否在复制过程中以文件夹结构形式保留源 zip 文件名。 已选择或取消选择 preserveZipFileNameAsFolder
(在 compressionProperties->type 下为 ZipDeflateReadSettings
将压缩文件名保留为文件夹 指示是否在复制过程中以文件夹结构形式保留源压缩文件名。 已选择或取消选择 preserveCompressionFileNameAsFolder
(在 compressionProperties->type 下为 TarGZipReadSettingsTarReadSettings
完成后删除文件 指示是否会在二进制文件成功移到目标存储后将其从源存储中删除。 已选择或取消选择 deleteFilesAfterCompletion:
true 或 false

二进制作为目标

使用二进制格式时,复制活动“目标”部分支持以下属性。

名称 描述 必选 JSON 脚本属性
文件格式 要使用的文件格式。 二进制 类型(datasetSettings):
二进制
压缩类型 用于写入二进制文件的压缩编解码器。 从下列项中进行选择:

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
类型(compression 下):

bzip2
gzip
deflate
ZipDeflate
TarGzip
tar
压缩级别 压缩率。 允许的值为 Optimal 或 Fastest。 最佳最快 级别(compression 下):
最快
最佳