OutputTabularDatasetConfig Klasse

Referenz

Gibt an, wie die Ausgabe einer Ausführung kopiert und zu einem tabellarischen Dataset (TabularDataset) höher gestuft wird.

Initialisieren sie eine OutputTabularDatasetConfig.

Vererbung: OutputDatasetConfig

OutputTabularDatasetConfig

Konstruktor

OutputTabularDatasetConfig(**kwargs)

Hinweise

Sie sollten diesen Konstruktor nicht direkt aufrufen. Erstellen Sie stattdessen ein OutputFileDatasetConfig-Objekt, und rufen Sie dann die entsprechenden „read_*“-Methoden auf, um es in ein OutputTabularDatasetConfig-Objekt zu konvertieren.

Für ein OutputTabularDatasetConfig-Objekt wird die Ausgabe auf die gleiche Art und Weise in das Ziel kopiert wie bei einem OutputFileDatasetConfig-Objekt. Der Unterschied besteht darin, dass das erstellte Dataset ein TabularDataset ist, das alle angegebenen Transformationen enthält.

Methoden

as_input	Gibt an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.
as_mount	Festlegen des Modus der einzubindenden Ausgabe. Für den Einbindungsmodus ist das Ausgabeverzeichnis ein eingebundenes FUSE-Verzeichnis. Dateien, die in das eingebundene Verzeichnis geschrieben werden, werden beim Schließen der Datei hochgeladen.
as_upload	Festlegen des Modus der hochzuladenden Ausgabe. Im Uploadmodus werden die in das Ausgabeverzeichnis geschriebenen Dateien am Ende des Auftrags hochgeladen. Wenn beim Auftrag ein Fehler auftritt oder er abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.
drop_columns	Löschen der angegebenen Spalten aus dem Dataset.
keep_columns	Beibehalten der angegebenen Spalten und Löschen aller anderen Spalten aus dem Dataset.
random_split	Aufteilen von Datensätzen im Dataset in zwei Teile nach dem Zufallsprinzip und ungefähr nach dem angegebenen Prozentsatz. Die Namen der resultierenden Ausgabekonfigurationen werden geändert. An den Namen der ersten Konfiguration wird „_1“ angefügt und an den der zweiten „_2“. Falls dies zu einem Namenskonflikt führt oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen manuell fest.

as_input

Gibt an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.

as_input(name=None)

Parameter

Name	Beschreibung
name Erforderlich	str Der Name der für die Ausführung spezifischen Eingabe.

Gibt zurück

Typ	Beschreibung
DatasetConsumptionConfig	Eine DatasetConsumptionConfig-Instanz, die beschreibt, wie die Eingabedaten übermittelt werden.

as_mount

Festlegen des Modus der einzubindenden Ausgabe.

Für den Einbindungsmodus ist das Ausgabeverzeichnis ein eingebundenes FUSE-Verzeichnis. Dateien, die in das eingebundene Verzeichnis geschrieben werden, werden beim Schließen der Datei hochgeladen.

as_mount()

Gibt zurück

Typ	Beschreibung
OutputTabularDatasetConfig	Eine OutputTabularDatasetConfig-Instanz, für die der Modus auf „mount“ (Einbinden) festgelegt ist.

as_upload

Festlegen des Modus der hochzuladenden Ausgabe.

Im Uploadmodus werden die in das Ausgabeverzeichnis geschriebenen Dateien am Ende des Auftrags hochgeladen. Wenn beim Auftrag ein Fehler auftritt oder er abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.

as_upload(overwrite=False, source_globs=None)

Parameter

Name	Beschreibung
overwrite Erforderlich	bool Gibt an, ob Dateien überschrieben werden sollen, die bereits im Ziel vorhanden sind.
source_globs Erforderlich	list[str] Globmuster zum Filtern von Dateien, die hochgeladen werden.

Gibt zurück

Typ	Beschreibung
OutputTabularDatasetConfig	Eine OutputTabularDatasetConfig-Instanz, für die der Modus auf „upload“ (Hochladen) festgelegt ist.

drop_columns

Löschen der angegebenen Spalten aus dem Dataset.

drop_columns(columns)

Parameter

Name	Beschreibung
columns Erforderlich	Union[str, list[str]] Der Name oder eine Liste der Namen für die zu löschenden Spalten.

Gibt zurück

Typ	Beschreibung
PipelineOutputTabularDataset	Eine OutputTabularDatasetConfig-Instanz, die die zu löschenden Spalten enthält.

keep_columns

Beibehalten der angegebenen Spalten und Löschen aller anderen Spalten aus dem Dataset.

keep_columns(columns)

Parameter

Name	Beschreibung
columns Erforderlich	Union[str, list[str]] Der Name oder eine Liste der Namen für die Spalten, die beibehalten werden sollen.

Gibt zurück

Typ	Beschreibung
PipelineOutputTabularDataset	Eine OutputTabularDatasetConfig-Instanz, die die Spalten enthält, die beibehalten werden sollen.

random_split

Aufteilen von Datensätzen im Dataset in zwei Teile nach dem Zufallsprinzip und ungefähr nach dem angegebenen Prozentsatz.

Die Namen der resultierenden Ausgabekonfigurationen werden geändert. An den Namen der ersten Konfiguration wird „_1“ angefügt und an den der zweiten „_2“. Falls dies zu einem Namenskonflikt führt oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen manuell fest.

random_split(percentage, seed=None)

Parameter

Name	Beschreibung
percentage Erforderlich	float Der ungefähre Prozentsatz, nach dem das Dataset aufgeteilt werden soll. Es muss eine Zahl zwischen 0,0 und 1,0 sein.
seed Erforderlich	int Ein optionaler Seed für den Zufallsgenerator.

Gibt zurück

Typ	Beschreibung
tuple(OutputTabularDatasetConfig, OutputTabularDatasetConfig)	Gibt ein Tupel mit zwei OutputTabularDatasetConfig-Objekten zurück, die die beiden Datasets nach der Teilung darstellen.

Freigeben über

OutputTabularDatasetConfig Klasse

Konstruktor

Hinweise

Methoden

as_input

Parameter

Gibt zurück

as_mount

Gibt zurück

as_upload

Parameter

Gibt zurück

drop_columns

Parameter

Gibt zurück

keep_columns

Parameter

Gibt zurück

random_split

Parameter

Gibt zurück

Feedback

Zusätzliche Ressourcen