OutputTabularDatasetConfig Klasse
Gibt an, wie die Ausgabe einer Ausführung kopiert und zu einem tabellarischen Dataset (TabularDataset) höher gestuft wird.
Initialisieren sie eine OutputTabularDatasetConfig.
- Vererbung
-
OutputTabularDatasetConfig
Konstruktor
OutputTabularDatasetConfig(**kwargs)
Hinweise
Sie sollten diesen Konstruktor nicht direkt aufrufen. Erstellen Sie stattdessen ein OutputFileDatasetConfig-Objekt, und rufen Sie dann die entsprechenden „read_*“-Methoden auf, um es in ein OutputTabularDatasetConfig-Objekt zu konvertieren.
Für ein OutputTabularDatasetConfig-Objekt wird die Ausgabe auf die gleiche Art und Weise in das Ziel kopiert wie bei einem OutputFileDatasetConfig-Objekt. Der Unterschied besteht darin, dass das erstellte Dataset ein TabularDataset ist, das alle angegebenen Transformationen enthält.
Methoden
as_input |
Gibt an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll. |
as_mount |
Festlegen des Modus der einzubindenden Ausgabe. Für den Einbindungsmodus ist das Ausgabeverzeichnis ein eingebundenes FUSE-Verzeichnis. Dateien, die in das eingebundene Verzeichnis geschrieben werden, werden beim Schließen der Datei hochgeladen. |
as_upload |
Festlegen des Modus der hochzuladenden Ausgabe. Im Uploadmodus werden die in das Ausgabeverzeichnis geschriebenen Dateien am Ende des Auftrags hochgeladen. Wenn beim Auftrag ein Fehler auftritt oder er abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen. |
drop_columns |
Löschen der angegebenen Spalten aus dem Dataset. |
keep_columns |
Beibehalten der angegebenen Spalten und Löschen aller anderen Spalten aus dem Dataset. |
random_split |
Aufteilen von Datensätzen im Dataset in zwei Teile nach dem Zufallsprinzip und ungefähr nach dem angegebenen Prozentsatz. Die Namen der resultierenden Ausgabekonfigurationen werden geändert. An den Namen der ersten Konfiguration wird „_1“ angefügt und an den der zweiten „_2“. Falls dies zu einem Namenskonflikt führt oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen manuell fest. |
as_input
Gibt an, wie die Ausgabe in nachfolgenden Pipelineschritten als Eingabe verwendet werden soll.
as_input(name=None)
Parameter
Name | Beschreibung |
---|---|
name
Erforderlich
|
Der Name der für die Ausführung spezifischen Eingabe. |
Gibt zurück
Typ | Beschreibung |
---|---|
Eine DatasetConsumptionConfig-Instanz, die beschreibt, wie die Eingabedaten übermittelt werden. |
as_mount
Festlegen des Modus der einzubindenden Ausgabe.
Für den Einbindungsmodus ist das Ausgabeverzeichnis ein eingebundenes FUSE-Verzeichnis. Dateien, die in das eingebundene Verzeichnis geschrieben werden, werden beim Schließen der Datei hochgeladen.
as_mount()
Gibt zurück
Typ | Beschreibung |
---|---|
Eine OutputTabularDatasetConfig-Instanz, für die der Modus auf „mount“ (Einbinden) festgelegt ist. |
as_upload
Festlegen des Modus der hochzuladenden Ausgabe.
Im Uploadmodus werden die in das Ausgabeverzeichnis geschriebenen Dateien am Ende des Auftrags hochgeladen. Wenn beim Auftrag ein Fehler auftritt oder er abgebrochen wird, wird das Ausgabeverzeichnis nicht hochgeladen.
as_upload(overwrite=False, source_globs=None)
Parameter
Name | Beschreibung |
---|---|
overwrite
Erforderlich
|
Gibt an, ob Dateien überschrieben werden sollen, die bereits im Ziel vorhanden sind. |
source_globs
Erforderlich
|
Globmuster zum Filtern von Dateien, die hochgeladen werden. |
Gibt zurück
Typ | Beschreibung |
---|---|
Eine OutputTabularDatasetConfig-Instanz, für die der Modus auf „upload“ (Hochladen) festgelegt ist. |
drop_columns
Löschen der angegebenen Spalten aus dem Dataset.
drop_columns(columns)
Parameter
Name | Beschreibung |
---|---|
columns
Erforderlich
|
Der Name oder eine Liste der Namen für die zu löschenden Spalten. |
Gibt zurück
Typ | Beschreibung |
---|---|
Eine OutputTabularDatasetConfig-Instanz, die die zu löschenden Spalten enthält. |
keep_columns
Beibehalten der angegebenen Spalten und Löschen aller anderen Spalten aus dem Dataset.
keep_columns(columns)
Parameter
Name | Beschreibung |
---|---|
columns
Erforderlich
|
Der Name oder eine Liste der Namen für die Spalten, die beibehalten werden sollen. |
Gibt zurück
Typ | Beschreibung |
---|---|
Eine OutputTabularDatasetConfig-Instanz, die die Spalten enthält, die beibehalten werden sollen. |
random_split
Aufteilen von Datensätzen im Dataset in zwei Teile nach dem Zufallsprinzip und ungefähr nach dem angegebenen Prozentsatz.
Die Namen der resultierenden Ausgabekonfigurationen werden geändert. An den Namen der ersten Konfiguration wird „_1“ angefügt und an den der zweiten „_2“. Falls dies zu einem Namenskonflikt führt oder Sie einen benutzerdefinierten Namen angeben möchten, legen Sie die Namen manuell fest.
random_split(percentage, seed=None)
Parameter
Name | Beschreibung |
---|---|
percentage
Erforderlich
|
Der ungefähre Prozentsatz, nach dem das Dataset aufgeteilt werden soll. Es muss eine Zahl zwischen 0,0 und 1,0 sein. |
seed
Erforderlich
|
Ein optionaler Seed für den Zufallsgenerator. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein Tupel mit zwei OutputTabularDatasetConfig-Objekten zurück, die die beiden Datasets nach der Teilung darstellen. |