OutputTabularDatasetConfig クラス

リファレンス

実行の出力をコピーし、TabularDataset として昇格させる方法を表します。

OutputTabularDatasetConfig を初期化します。

継承: OutputDatasetConfig

OutputTabularDatasetConfig

コンストラクター

OutputTabularDatasetConfig(**kwargs)

注釈

このコンストラクターは直接呼び出さないでください。代わりに、OutputFileDatasetConfig を作成し、対応する read_* メソッドを呼び出して OutputTabularDatasetConfig に変換する必要があります。

OutputTabularDatasetConfig のコピー先に出力がコピーされる方法は、OutputFileDatasetConfig と同じです。異なる点は、作成されるデータセットが、指定されたすべての変換を含む TabularDataset であることです。

メソッド

as_input	出力を後続のパイプラインステップで入力として使用する方法を指定します。
as_mount	出力のモードをマウントに設定します。マウントモードでは、出力ディレクトリが FUSE でマウントされたディレクトリになります。マウントされたディレクトリに書き込まれたファイルは、ファイルが閉じられるとアップロードされます。
as_upload	出力のモードをアップロードに設定します。アップロードモードでは、出力ディレクトリに書き込まれたファイルがジョブの最後にアップロードされます。ジョブが失敗するか取り消された場合、出力ディレクトリはアップロードされません。
drop_columns	指定された列をデータセットから削除します。
keep_columns	指定された列を残し、その他すべての列をデータセットから削除します。
random_split	データセット内のレコードを、指定されたおおよその割合でランダムに 2 つに分割します。結果の出力構成は名前が変更されます。1 つ目の構成では名前に _1 が付加され、2 つ目の構成では名前に _2 が付加されます。名前が競合する場合、またはカスタムの名前を指定する場合は、手動で名前を設定してください。

as_input

出力を後続のパイプラインステップで入力として使用する方法を指定します。

as_input(name=None)

パラメーター

名前	説明
name 必須	str 実行に固有の入力の名前。

戻り値

型	説明
DatasetConsumptionConfig	入力データを配信する方法を示す DatasetConsumptionConfig インスタンス。

as_mount

出力のモードをマウントに設定します。

マウントモードでは、出力ディレクトリが FUSE でマウントされたディレクトリになります。マウントされたディレクトリに書き込まれたファイルは、ファイルが閉じられるとアップロードされます。

as_mount()

戻り値

型	説明
OutputTabularDatasetConfig	モードがマウントに設定された OutputTabularDatasetConfig インスタンス。

as_upload

出力のモードをアップロードに設定します。

アップロードモードでは、出力ディレクトリに書き込まれたファイルがジョブの最後にアップロードされます。ジョブが失敗するか取り消された場合、出力ディレクトリはアップロードされません。

as_upload(overwrite=False, source_globs=None)

パラメーター

名前	説明
overwrite 必須	bool アップロード先に既に存在するファイルを上書きするかどうか。
source_globs 必須	list[str] アップロードされるファイルをフィルター処理するために使用される glob パターン。

戻り値

型	説明
OutputTabularDatasetConfig	モードがアップロードに設定された OutputTabularDatasetConfig インスタンス。

drop_columns

指定された列をデータセットから削除します。

drop_columns(columns)

パラメーター

名前	説明
columns 必須	Union[str, list[str]] 削除する列の名前または名前のリスト。

戻り値

型	説明
PipelineOutputTabularDataset	列を削除する OutputTabularDatasetConfig インスタンス。

keep_columns

指定された列を残し、その他すべての列をデータセットから削除します。

keep_columns(columns)

パラメーター

名前	説明
columns 必須	Union[str, list[str]] 列に保持される名前または名前のリスト。

戻り値

型	説明
PipelineOutputTabularDataset	列を保持する OutputTabularDatasetConfig インスタンス。

random_split

データセット内のレコードを、指定されたおおよその割合でランダムに 2 つに分割します。

結果の出力構成は名前が変更されます。1 つ目の構成では名前に _1 が付加され、2 つ目の構成では名前に _2 が付加されます。名前が競合する場合、またはカスタムの名前を指定する場合は、手動で名前を設定してください。

random_split(percentage, seed=None)

パラメーター

名前	説明
percentage 必須	float データセットを分割するおおよその割合。これには、0.0 から 1.0 までの数値を指定する必要があります。
seed 必須	int 乱数ジェネレーターに使用するオプションのシード。

戻り値

型	説明
tuple(OutputTabularDatasetConfig, OutputTabularDatasetConfig)	分割後の 2 つのデータセットを表す 2 つの OutputTabularDatasetConfig オブジェクトのタプルを返します。

次の方法で共有

OutputTabularDatasetConfig クラス

コンストラクター

注釈

メソッド

as_input

パラメーター

戻り値

as_mount

戻り値

as_upload

パラメーター

戻り値

drop_columns

パラメーター

戻り値

keep_columns

パラメーター

戻り値

random_split

パラメーター

戻り値

フィードバック

その他のリソース