OutputTabularDatasetConfig Classe
Représente comment copier la sortie d’une exécution et la promouvoir en tant que TabularDataset.
Initialisez un OutputTabularDatasetConfig.
- Héritage
-
OutputTabularDatasetConfig
Constructeur
OutputTabularDatasetConfig(**kwargs)
Remarques
Vous ne devez pas appeler ce constructeur directement, mais vous devez à la place créer un OutputFileDatasetConfig, puis appeler les méthodes read_ * correspondantes pour le convertir en OutputTabularDatasetConfig.
La façon dont la sortie sera copiée vers la destination d’un OutputTabularDatasetConfig est identique à celle d’un OutputFileDatasetConfig. La différence réside dans le fait que le jeu données créé sera un TabularDataset contenant toutes les transformations spécifiées.
Méthodes
as_input |
Spécifie comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes. |
as_mount |
Définit la sortie en mode « mount ». En mode « mount », le répertoire de sortie est un répertoire monté FUSE. Les fichiers écrits dans le répertoire monté sont chargés à la fermeture du fichier. |
as_upload |
Définit la sortie en mode « upload ». En mode « upload », les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie n’est pas téléchargé. |
drop_columns |
Supprime les colonnes spécifiées du jeu de données. |
keep_columns |
Conserve les colonnes spécifiées et supprime toutes les autres du jeu de données. |
random_split |
Fractionne les enregistrements dans le jeu de données en deux parties de façon aléatoire et approximative selon le pourcentage spécifié. Les noms des configurations de sortie résultantes sont changés : _1 est ajouté au nom pour la première configuration, et _2 est ajouté au nom pour la seconde. Si cela entraîne une collision de nom ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms. |
as_input
Spécifie comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.
as_input(name=None)
Paramètres
Nom | Description |
---|---|
name
Obligatoire
|
Nom de l’entrée spécifique à la série. |
Retours
Type | Description |
---|---|
Instance de DatasetConsumptionConfig décrivant la façon de fournir les données d’entrée. |
as_mount
Définit la sortie en mode « mount ».
En mode « mount », le répertoire de sortie est un répertoire monté FUSE. Les fichiers écrits dans le répertoire monté sont chargés à la fermeture du fichier.
as_mount()
Retours
Type | Description |
---|---|
Instance OutputTabularDatasetConfig dont le mode est défini sur mount. |
as_upload
Définit la sortie en mode « upload ».
En mode « upload », les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie n’est pas téléchargé.
as_upload(overwrite=False, source_globs=None)
Paramètres
Nom | Description |
---|---|
overwrite
Obligatoire
|
Indique s’il est nécessaire de remplacer les fichiers qui existent déjà à l’emplacement de destination. |
source_globs
Obligatoire
|
Modèles Glob utilisés pour filtrer les fichiers à charger. |
Retours
Type | Description |
---|---|
Instance de OutputTabularDatasetConfig pour laquelle le mode « upload » est défini. |
drop_columns
Supprime les colonnes spécifiées du jeu de données.
drop_columns(columns)
Paramètres
Nom | Description |
---|---|
columns
Obligatoire
|
Nom ou liste de noms des colonnes à supprimer. |
Retours
Type | Description |
---|---|
Instance de OutputTabularDatasetConfig avec les colonnes à supprimer. |
keep_columns
Conserve les colonnes spécifiées et supprime toutes les autres du jeu de données.
keep_columns(columns)
Paramètres
Nom | Description |
---|---|
columns
Obligatoire
|
Nom ou liste de noms des colonnes à conserver. |
Retours
Type | Description |
---|---|
Instance de OutputTabularDatasetConfig avec les colonnes à conserver. |
random_split
Fractionne les enregistrements dans le jeu de données en deux parties de façon aléatoire et approximative selon le pourcentage spécifié.
Les noms des configurations de sortie résultantes sont changés : _1 est ajouté au nom pour la première configuration, et _2 est ajouté au nom pour la seconde. Si cela entraîne une collision de nom ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms.
random_split(percentage, seed=None)
Paramètres
Nom | Description |
---|---|
percentage
Obligatoire
|
Pourcentage approximatif à utiliser pour le découpage du jeu de données. Il doit s’agir d’un nombre compris entre 0,0 et 1,0. |
seed
Obligatoire
|
Valeur initiale facultative à utiliser pour le générateur aléatoire. |
Retours
Type | Description |
---|---|
Retourne un tuple de deux objets OutputTabularDatasetConfig représentant les deux jeux de données après le découpage. |