SparkJob Classe
Un travail Spark autonome.
- Héritage
-
azure.ai.ml.entities._job.job.JobSparkJobazure.ai.ml.entities._job.parameterized_spark.ParameterizedSparkSparkJobazure.ai.ml.entities._job.job_io_mixin.JobIOMixinSparkJobazure.ai.ml.entities._job.spark_job_entry_mixin.SparkJobEntryMixinSparkJob
Constructeur
SparkJob(*, driver_cores: int | None = None, driver_memory: str | None = None, executor_cores: int | None = None, executor_memory: str | None = None, executor_instances: int | None = None, dynamic_allocation_enabled: bool | None = None, dynamic_allocation_min_executors: int | None = None, dynamic_allocation_max_executors: int | None = None, inputs: Dict | None = None, outputs: Dict | None = None, compute: str | None = None, identity: Dict[str, str] | ManagedIdentityConfiguration | AmlTokenConfiguration | UserIdentityConfiguration | None = None, resources: Dict | SparkResourceConfiguration | None = None, **kwargs)
Paramètres
Nombre de cœurs à utiliser pour le processus de pilote, uniquement en mode cluster.
Quantité de mémoire à utiliser pour le processus de pilote, mise en forme sous forme de chaînes avec un suffixe d’unité de taille (« k », « m », « g » ou « t ») (par exemple, « 512m », « 2g »).
Quantité de mémoire à utiliser par processus d’exécuteur, mise en forme sous forme de chaînes avec un suffixe d’unité de taille (« k », « m », « g » ou « t ») (par exemple, « 512m », « 2g »).
Indique s’il faut utiliser l’allocation dynamique des ressources, qui met à l’échelle le nombre d’exécuteurs inscrits auprès de cette application en fonction de la charge de travail.
Limite inférieure pour le nombre d’exécuteurs si l’allocation dynamique est activée.
Limite supérieure pour le nombre d’exécuteurs si l’allocation dynamique est activée.
Mappage des liaisons de données d’entrée utilisées dans le travail.
Mappage des liaisons de données de sortie utilisées dans le travail.
- identity
- Optional[Union[dict[str, str], ManagedIdentityConfiguration, AmlTokenConfiguration, UserIdentityConfiguration]]
Identité que le travail Spark utilisera lors de l’exécution sur le calcul.
Exemples
Configuration d’un SparkJob.
from azure.ai.ml import Input, Output
from azure.ai.ml.entities import SparkJob
spark_job = SparkJob(
code="./sdk/ml/azure-ai-ml/tests/test_configs/dsl_pipeline/spark_job_in_pipeline/basic_src",
entry={"file": "sampleword.py"},
conf={
"spark.driver.cores": 2,
"spark.driver.memory": "1g",
"spark.executor.cores": 1,
"spark.executor.memory": "1g",
"spark.executor.instances": 1,
},
environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu:33",
inputs={
"input1": Input(
type="uri_file", path="azureml://datastores/workspaceblobstore/paths/python/data.csv", mode="direct"
)
},
compute="synapsecompute",
outputs={"component_out_path": Output(type="uri_folder")},
args="--input1 ${{inputs.input1}} --output2 ${{outputs.output1}} --my_sample_rate ${{inputs.sample_rate}}",
)
Méthodes
dump |
Vide le contenu du travail dans un fichier au format YAML. |
filter_conf_fields |
Filtre les champs de l’attribut conf qui ne figurent pas parmi les champs de configuration Spark répertoriés dans ~azure.ai.ml._schema.job.parameterized_spark. CONF_KEY_MAP et les retourne dans leur propre dictionnaire. |
dump
Vide le contenu du travail dans un fichier au format YAML.
dump(dest: str | PathLike | IO, **kwargs) -> None
Paramètres
Chemin d’accès local ou flux de fichiers dans lequel écrire le contenu YAML. Si dest est un chemin de fichier, un nouveau fichier est créé. Si dest est un fichier ouvert, le fichier est écrit directement dans.
- kwargs
- dict
Arguments supplémentaires à passer au sérialiseur YAML.
Exceptions
Déclenché si dest est un chemin de fichier et que le fichier existe déjà.
Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.
filter_conf_fields
Filtre les champs de l’attribut conf qui ne figurent pas parmi les champs de configuration Spark répertoriés dans ~azure.ai.ml._schema.job.parameterized_spark. CONF_KEY_MAP et les retourne dans leur propre dictionnaire.
filter_conf_fields() -> Dict[str, str]
Retours
Dictionnaire des champs conf qui ne sont pas des champs de configuration Spark.
Type de retour
Exceptions
Déclenché si dest est un chemin de fichier et que le fichier existe déjà.
Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.
Attributs
base_path
Chemin d’accès de base de la ressource.
Retours
Chemin d’accès de base de la ressource.
Type de retour
creation_context
Contexte de création de la ressource.
Retours
Métadonnées de création pour la ressource.
Type de retour
entry
environment
Environnement Azure ML dans lequel exécuter le composant ou la tâche Spark.
Retours
Environnement Azure ML dans lequel exécuter le composant ou la tâche Spark.
Type de retour
id
ID de la ressource.
Retours
ID global de la ressource, id Azure Resource Manager (ARM).
Type de retour
identity
Identité que le travail Spark utilisera lors de l’exécution sur le calcul.
Retours
Identité que le travail Spark utilisera lors de l’exécution sur le calcul.
Type de retour
inputs
log_files
Fichiers de sortie de travail.
Retours
Dictionnaire des noms de journaux et des URL.
Type de retour
outputs
resources
Configuration des ressources de calcul pour le travail.
Retours
Configuration des ressources de calcul pour le travail.
Type de retour
status
État du travail.
Les valeurs courantes retournées sont « Exécution en cours (Running) », « Terminé (Finished) » et « Échec (Failed) ». Toutes les valeurs possibles sont les suivantes :
NotStarted : il s’agit d’un état temporaire dans lequel se trouvent les objets Run côté client avant la soumission cloud.
Démarrage : l’exécution a commencé à être traitée dans le cloud. L’appelant a un ID d’exécution à ce stade.
Approvisionnement : le calcul à la demande est en cours de création pour une soumission de travail donnée.
Préparation : l’environnement d’exécution est en cours de préparation et se trouve dans l’une des deux étapes suivantes :
Build d’image Docker
Configuration de l’environnement Conda
Mis en file d’attente : le travail est mis en file d’attente sur la cible de calcul. Par exemple, dans BatchAI, le travail est dans un état mis en file d’attente
en attendant que tous les nœuds demandés soient prêts.
En cours d’exécution : le travail a commencé à s’exécuter sur la cible de calcul.
Finalisation : l’exécution du code utilisateur est terminée et l’exécution est en phase de post-traitement.
CancelRequested : l’annulation a été demandée pour le travail.
Terminé : l’exécution s’est terminée avec succès. Cela inclut à la fois l’exécution et l’exécution du code utilisateur
Étapes de post-traitement.
Failed (Échec) : l’exécution a échoué. En règle générale, la propriété Error d’une exécution fournit des détails sur la raison de l’échec.
Annulé : suit une demande d’annulation et indique que l’exécution a bien été annulée.
NotResponding : pour les exécutions pour lesquelles des pulsations sont activées, aucune pulsation n’a été envoyée récemment.
Retours
État du travail.
Type de retour
studio_url
Point de terminaison Azure ML Studio.
Retours
URL de la page des détails du travail.
Type de retour
type
CODE_ID_RE_PATTERN
CODE_ID_RE_PATTERN = re.compile('\\/subscriptions\\/(?P<subscription>[\\w,-]+)\\/resourceGroups\\/(?P<resource_group>[\\w,-]+)\\/providers\\/Microsoft\\.MachineLearningServices\\/workspaces\\/(?P<workspace>[\\w,-]+)\\/codes\\/(?P<co)
Azure SDK for Python