Freigeben über


OutputTabularDatasetConfig Klasse

Gibt an, wie die Ausgabe einer Ausführung kopiert und zu einem tabellarischen Dataset (TabularDataset) höher gestuft wird.

Initialisieren sie eine OutputTabularDatasetConfig.

Vererbung
OutputTabularDatasetConfig

Konstruktor

OutputTabularDatasetConfig(**kwargs)

Hinweise

Sie sollten diesen Konstruktor nicht direkt aufrufen. Erstellen Sie stattdessen ein OutputFileDatasetConfig-Objekt, und rufen Sie dann die entsprechenden „read_*“-Methoden auf, um es in ein OutputTabularDatasetConfig-Objekt zu konvertieren.

Für ein OutputTabularDatasetConfig-Objekt wird die Ausgabe auf die gleiche Art und Weise in das Ziel kopiert wie bei einem OutputFileDatasetConfig-Objekt. Der Unterschied besteht darin, dass das erstellte Dataset ein TabularDataset ist, das alle angegebenen Transformationen enthält.

Methoden

as_input

Gibt an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.

as_mount

Festlegen des Modus der einzubindenden Ausgabe.

Für den Einbindungsmodus ist das Ausgabeverzeichnis ein eingebundenes FUSE-Verzeichnis. Dateien, die in das eingebundene Verzeichnis geschrieben werden, werden beim Schließen der Datei hochgeladen.

as_upload

Festlegen des Modus der hochzuladenden Ausgabe.

Im Uploadmodus werden die in das Ausgabeverzeichnis geschriebenen Dateien am Ende des Auftrags hochgeladen. Wenn beim Auftrag ein Fehler auftritt oder er abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.

drop_columns

Löschen der angegebenen Spalten aus dem Dataset.

keep_columns

Beibehalten der angegebenen Spalten und Löschen aller anderen Spalten aus dem Dataset.

random_split

Aufteilen von Datensätzen im Dataset in zwei Teile nach dem Zufallsprinzip und ungefähr nach dem angegebenen Prozentsatz.

Die Namen der resultierenden Ausgabekonfigurationen werden geändert. An den Namen der ersten Konfiguration wird „_1“ angefügt und an den der zweiten „_2“. Falls dies zu einem Namenskonflikt führt oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen manuell fest.

as_input

Gibt an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.

as_input(name=None)

Parameter

Name Beschreibung
name
Erforderlich
str

Der Name der für die Ausführung spezifischen Eingabe.

Gibt zurück

Typ Beschreibung

Eine DatasetConsumptionConfig-Instanz, die beschreibt, wie die Eingabedaten übermittelt werden.

as_mount

Festlegen des Modus der einzubindenden Ausgabe.

Für den Einbindungsmodus ist das Ausgabeverzeichnis ein eingebundenes FUSE-Verzeichnis. Dateien, die in das eingebundene Verzeichnis geschrieben werden, werden beim Schließen der Datei hochgeladen.

as_mount()

Gibt zurück

Typ Beschreibung

Eine OutputTabularDatasetConfig-Instanz, für die der Modus auf „mount“ (Einbinden) festgelegt ist.

as_upload

Festlegen des Modus der hochzuladenden Ausgabe.

Im Uploadmodus werden die in das Ausgabeverzeichnis geschriebenen Dateien am Ende des Auftrags hochgeladen. Wenn beim Auftrag ein Fehler auftritt oder er abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.

as_upload(overwrite=False, source_globs=None)

Parameter

Name Beschreibung
overwrite
Erforderlich

Gibt an, ob Dateien überschrieben werden sollen, die bereits im Ziel vorhanden sind.

source_globs
Erforderlich

Globmuster zum Filtern von Dateien, die hochgeladen werden.

Gibt zurück

Typ Beschreibung

Eine OutputTabularDatasetConfig-Instanz, für die der Modus auf „upload“ (Hochladen) festgelegt ist.

drop_columns

Löschen der angegebenen Spalten aus dem Dataset.

drop_columns(columns)

Parameter

Name Beschreibung
columns
Erforderlich

Der Name oder eine Liste der Namen für die zu löschenden Spalten.

Gibt zurück

Typ Beschreibung

Eine OutputTabularDatasetConfig-Instanz, die die zu löschenden Spalten enthält.

keep_columns

Beibehalten der angegebenen Spalten und Löschen aller anderen Spalten aus dem Dataset.

keep_columns(columns)

Parameter

Name Beschreibung
columns
Erforderlich

Der Name oder eine Liste der Namen für die Spalten, die beibehalten werden sollen.

Gibt zurück

Typ Beschreibung

Eine OutputTabularDatasetConfig-Instanz, die die Spalten enthält, die beibehalten werden sollen.

random_split

Aufteilen von Datensätzen im Dataset in zwei Teile nach dem Zufallsprinzip und ungefähr nach dem angegebenen Prozentsatz.

Die Namen der resultierenden Ausgabekonfigurationen werden geändert. An den Namen der ersten Konfiguration wird „_1“ angefügt und an den der zweiten „_2“. Falls dies zu einem Namenskonflikt führt oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen manuell fest.

random_split(percentage, seed=None)

Parameter

Name Beschreibung
percentage
Erforderlich

Der ungefähre Prozentsatz, nach dem das Dataset aufgeteilt werden soll. Es muss eine Zahl zwischen 0,0 und 1,0 sein.

seed
Erforderlich
int

Ein optionaler Seed für den Zufallsgenerator.

Gibt zurück

Typ Beschreibung

Gibt ein Tupel mit zwei OutputTabularDatasetConfig-Objekten zurück, die die beiden Datasets nach der Teilung darstellen.