DatasetConsumptionConfig Classe
Représente comment fournir le jeu de données à une cible de calcul.
Représente comment remettre le jeu de données à la cible de calcul.
- Héritage
-
builtins.objectDatasetConsumptionConfig
Constructeur
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Paramètres
Nom | Description |
---|---|
name
Obligatoire
|
Nom du jeu de données dans l’exécution, qui peut être différent du nom inscrit. Le nom est inscrit en tant que variable d’environnement et peut être utilisé dans le plan de données. |
dataset
Obligatoire
|
Jeu de données qui sera consommé dans l’exécution. |
mode
|
Définit la façon dont le jeu de données doit être remis à la cible de calcul. Trois modes sont disponibles :
Valeur par défaut: direct
|
path_on_compute
|
Chemin de la cible de calcul où les données doivent être rendues disponibles. La structure de dossiers des données sources est conservée. Nous pouvons cependant ajouter des préfixes à cette structure pour éviter les collisions. Utilisez Valeur par défaut: None
|
name
Obligatoire
|
Nom du jeu de données dans l’exécution, qui peut être différent du nom inscrit. Le nom est inscrit en tant que variable d’environnement et peut être utilisé dans le plan de données. |
dataset
Obligatoire
|
Dataset ou
PipelineParameter ou
tuple(Workspace, str) ou
tuple(Workspace, str, str) ou
OutputDatasetConfig
Jeu de données à remettre, sous la forme d’un objet Dataset, paramètre de pipeline qui ingère un jeu de données, un tuple de (espace de travail, nom du jeu de données) ou un tuple de (espace de travail, nom du jeu de données, version du jeu de données). Si seul un nom est fourni, datasetConsumptionConfig utilise la dernière version du jeu de données. |
mode
Obligatoire
|
Définit la façon dont le jeu de données doit être remis à la cible de calcul. Trois modes sont disponibles :
|
path_on_compute
Obligatoire
|
Chemin de la cible de calcul où les données doivent être rendues disponibles. La structure de dossiers des données sources est conservée. Nous pouvons cependant ajouter des préfixes à cette structure pour éviter les collisions. Nous vous recommandons d’appeler tabular_dataset.to_path pour voir la structure du dossier de sortie. |
Méthodes
as_download |
Définissez le mode sur « télécharger ». Dans l’exécution envoyée, les fichiers du jeu de données seront téléchargés dans le chemin d’accès local sur la cible de calcul. L’emplacement de téléchargement peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.
|
as_hdfs |
Définissez le mode sur « hdfs ». Dans l’exécution synapse envoyée, les fichiers des jeux de données seront convertis dans le chemin d’accès local sur la cible de calcul. Le chemin hdfs peut être récupéré à partir des valeurs d’argument et des variables d’environnement du système d’exploitation.
|
as_mount |
Définissez le mode sur « monter ». Dans l’exécution envoyée, les fichiers des jeux de données seront montés dans le chemin d’accès local sur la cible de calcul. Le point de montage peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.
|
as_download
Définissez le mode sur « télécharger ».
Dans l’exécution envoyée, les fichiers du jeu de données seront téléchargés dans le chemin d’accès local sur la cible de calcul. L’emplacement de téléchargement peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Paramètres
Nom | Description |
---|---|
path_on_compute
|
Chemin d’accès cible sur le calcul auquel rendre les données disponibles. Valeur par défaut: None
|
Remarques
Lorsque le jeu de données est créé à partir du chemin d’accès d’un fichier unique, l’emplacement de téléchargement est le chemin d’accès du fichier téléchargé unique. Sinon, l’emplacement de téléchargement sera le chemin d’accès du dossier englobant tous les fichiers téléchargés.
Si path_on_compute commence par un /, il est traité comme un chemin d’accès absolu. S’il ne commence pas par un /, il est traité comme un chemin d’accès relatif par rapport au répertoire de travail. Si vous avez spécifié un chemin d’accès absolu, assurez-vous que le travail est autorisé à écrire dans ce répertoire.
as_hdfs
Définissez le mode sur « hdfs ».
Dans l’exécution synapse envoyée, les fichiers des jeux de données seront convertis dans le chemin d’accès local sur la cible de calcul. Le chemin hdfs peut être récupéré à partir des valeurs d’argument et des variables d’environnement du système d’exploitation.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Remarques
Lorsque le jeu de données est créé à partir du chemin d’accès d’un fichier unique, le chemin hdfs est le chemin d’accès du fichier unique. Dans le cas contraire, le chemin hdfs sera le chemin d’accès du dossier englobant tous les fichiers montés.
as_mount
Définissez le mode sur « monter ».
Dans l’exécution envoyée, les fichiers des jeux de données seront montés dans le chemin d’accès local sur la cible de calcul. Le point de montage peut être récupéré à partir des valeurs d’argument et du champ input_datasets du contexte d’exécution.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Paramètres
Nom | Description |
---|---|
path_on_compute
|
Chemin d’accès cible sur le calcul auquel rendre les données disponibles. Valeur par défaut: None
|
Remarques
Lorsque le jeu de données est créé à partir du chemin d’accès d’un fichier unique, le point de montage est le chemin d’accès du fichier monté unique. Dans le cas contraire, le point de montage sera le chemin d’accès du dossier englobant tous les fichiers montés.
Si path_on_compute commence par un /, il est traité comme un chemin d’accès absolu. S’il ne commence pas par un /, il est traité comme un chemin d’accès relatif par rapport au répertoire de travail. Si vous avez spécifié un chemin d’accès absolu, assurez-vous que le travail est autorisé à écrire dans ce répertoire.
Attributs
name
Nom de l’entrée.
Retours
Type | Description |
---|---|
Nom de l’entrée. |