OutputTabularDatasetConfig 类

表示如何复制运行的输出以及如何将其提升为 TabularDataset。

初始化 OutputTabularDatasetConfig。

继承
OutputTabularDatasetConfig

构造函数

OutputTabularDatasetConfig(**kwargs)

注解

不应直接调用此构造函数,而应创建一个 OutputFileDatasetConfig,然后调用相应的 read_* 方法将其转换为 OutputTabularDatasetConfig。

OutputTabularDatasetConfig 将输出复制到目标的方式与 OutputFileDatasetConfig 相同。 它们的区别在于,创建的数据集将是包含所有指定转换的 TabularDataset。

方法

as_input

指定如何在后续管道步骤中将输出用作输入。

as_mount

将输出的模式设置为装载。

对于装载模式,输出目录将是装载 FUSE 的目录。 当文件关闭时,将上传写入已装载目录的文件。

as_upload

将输出模式设置为上传。

对于上传模式,写入到输出目录的文件将在作业结束时上传。 如果作业失败或被取消,将不会上传输出目录。

drop_columns

从数据集中删除指定列。

keep_columns

保留指定列并从数据集中删除所有其他列。

random_split

按指定百分比随机并大致地将数据集中的记录拆分为两个部分。

结果输出配置将更改其名称,第一个将在名称后附加 _1,第二个将在名称后附加 _2。 如果会导致名称冲突或想要指定自定义名称,请手动设置其名称。

as_input

指定如何在后续管道步骤中将输出用作输入。

as_input(name=None)

参数

名称 说明
name
必需
str

特定于运行的输入的名称。

返回

类型 说明

描述如何传递输入数据的 DatasetConsumptionConfig 实例。

as_mount

将输出的模式设置为装载。

对于装载模式,输出目录将是装载 FUSE 的目录。 当文件关闭时,将上传写入已装载目录的文件。

as_mount()

返回

类型 说明

模式设置为装载的 OutputTabularDatasetConfig 实例。

as_upload

将输出模式设置为上传。

对于上传模式,写入到输出目录的文件将在作业结束时上传。 如果作业失败或被取消,将不会上传输出目录。

as_upload(overwrite=False, source_globs=None)

参数

名称 说明
overwrite
必需

是否覆盖目标中已存在的文件。

source_globs
必需

用于筛选将要上传的文件的 Glob 模式。

返回

类型 说明

模式设置为上传的 OutputTabularDatasetConfig 实例。

drop_columns

从数据集中删除指定列。

drop_columns(columns)

参数

名称 说明
columns
必需

要删除的列的名称或名称列表。

返回

类型 说明

要删除列的 OutputTabularDatasetConfig 实例。

keep_columns

保留指定列并从数据集中删除所有其他列。

keep_columns(columns)

参数

名称 说明
columns
必需

要保留的列的名称或名称列表。

返回

类型 说明

要保留列的 OutputTabularDatasetConfig 实例。

random_split

按指定百分比随机并大致地将数据集中的记录拆分为两个部分。

结果输出配置将更改其名称,第一个将在名称后附加 _1,第二个将在名称后附加 _2。 如果会导致名称冲突或想要指定自定义名称,请手动设置其名称。

random_split(percentage, seed=None)

参数

名称 说明
percentage
必需

要拆分数据集的大致百分比。 这必须是介于 0.0 和 1.0 之间的数字。

seed
必需
int

用于随机生成器的可选种子。

返回

类型 说明

返回表示拆分后两个数据集的两个 OutputTabularDatasetConfig 对象的元组。