Partager via


SparkJob Classe

Un travail Spark autonome.

Héritage
azure.ai.ml.entities._job.job.Job
SparkJob
azure.ai.ml.entities._job.parameterized_spark.ParameterizedSpark
SparkJob
azure.ai.ml.entities._job.job_io_mixin.JobIOMixin
SparkJob
azure.ai.ml.entities._job.spark_job_entry_mixin.SparkJobEntryMixin
SparkJob

Constructeur

SparkJob(*, driver_cores: int | None = None, driver_memory: str | None = None, executor_cores: int | None = None, executor_memory: str | None = None, executor_instances: int | None = None, dynamic_allocation_enabled: bool | None = None, dynamic_allocation_min_executors: int | None = None, dynamic_allocation_max_executors: int | None = None, inputs: Dict | None = None, outputs: Dict | None = None, compute: str | None = None, identity: Dict[str, str] | ManagedIdentityConfiguration | AmlTokenConfiguration | UserIdentityConfiguration | None = None, resources: Dict | SparkResourceConfiguration | None = None, **kwargs)

Paramètres

driver_cores
Optional[int]

Nombre de cœurs à utiliser pour le processus de pilote, uniquement en mode cluster.

driver_memory
Optional[str]

Quantité de mémoire à utiliser pour le processus de pilote, mise en forme sous forme de chaînes avec un suffixe d’unité de taille (« k », « m », « g » ou « t ») (par exemple, « 512m », « 2g »).

executor_cores
Optional[int]

Nombre de cœurs à utiliser sur chaque exécuteur.

executor_memory
Optional[str]

Quantité de mémoire à utiliser par processus d’exécuteur, mise en forme sous forme de chaînes avec un suffixe d’unité de taille (« k », « m », « g » ou « t ») (par exemple, « 512m », « 2g »).

executor_instances
Optional[int]

Nombre initial d’exécuteurs.

dynamic_allocation_enabled
Optional[bool]

Indique s’il faut utiliser l’allocation dynamique des ressources, qui met à l’échelle le nombre d’exécuteurs inscrits auprès de cette application en fonction de la charge de travail.

dynamic_allocation_min_executors
Optional[int]

Limite inférieure pour le nombre d’exécuteurs si l’allocation dynamique est activée.

dynamic_allocation_max_executors
Optional[int]

Limite supérieure pour le nombre d’exécuteurs si l’allocation dynamique est activée.

inputs
Optional[dict[str, Input]]

Mappage des liaisons de données d’entrée utilisées dans le travail.

outputs
Optional[dict[str, Output]]

Mappage des liaisons de données de sortie utilisées dans le travail.

compute
Optional[str]

Ressource de calcul sur laquelle le travail s’exécute.

identity
Optional[Union[dict[str, str], ManagedIdentityConfiguration, AmlTokenConfiguration, UserIdentityConfiguration]]

Identité que le travail Spark utilisera lors de l’exécution sur le calcul.

Exemples

Configuration d’un SparkJob.


   from azure.ai.ml import Input, Output
   from azure.ai.ml.entities import SparkJob

   spark_job = SparkJob(
       code="./sdk/ml/azure-ai-ml/tests/test_configs/dsl_pipeline/spark_job_in_pipeline/basic_src",
       entry={"file": "sampleword.py"},
       conf={
           "spark.driver.cores": 2,
           "spark.driver.memory": "1g",
           "spark.executor.cores": 1,
           "spark.executor.memory": "1g",
           "spark.executor.instances": 1,
       },
       environment="AzureML-sklearn-1.0-ubuntu20.04-py38-cpu:33",
       inputs={
           "input1": Input(
               type="uri_file", path="azureml://datastores/workspaceblobstore/paths/python/data.csv", mode="direct"
           )
       },
       compute="synapsecompute",
       outputs={"component_out_path": Output(type="uri_folder")},
       args="--input1 ${{inputs.input1}} --output2 ${{outputs.output1}} --my_sample_rate ${{inputs.sample_rate}}",
   )


Méthodes

dump

Vide le contenu du travail dans un fichier au format YAML.

filter_conf_fields

Filtre les champs de l’attribut conf qui ne figurent pas parmi les champs de configuration Spark répertoriés dans ~azure.ai.ml._schema.job.parameterized_spark. CONF_KEY_MAP et les retourne dans leur propre dictionnaire.

dump

Vide le contenu du travail dans un fichier au format YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Paramètres

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
Obligatoire

Chemin d’accès local ou flux de fichiers dans lequel écrire le contenu YAML. Si dest est un chemin de fichier, un nouveau fichier est créé. Si dest est un fichier ouvert, le fichier est écrit directement dans.

kwargs
dict

Arguments supplémentaires à passer au sérialiseur YAML.

Exceptions

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

filter_conf_fields

Filtre les champs de l’attribut conf qui ne figurent pas parmi les champs de configuration Spark répertoriés dans ~azure.ai.ml._schema.job.parameterized_spark. CONF_KEY_MAP et les retourne dans leur propre dictionnaire.

filter_conf_fields() -> Dict[str, str]

Retours

Dictionnaire des champs conf qui ne sont pas des champs de configuration Spark.

Type de retour

Exceptions

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

Attributs

base_path

Chemin d’accès de base de la ressource.

Retours

Chemin d’accès de base de la ressource.

Type de retour

str

creation_context

Contexte de création de la ressource.

Retours

Métadonnées de création pour la ressource.

Type de retour

entry

environment

Environnement Azure ML dans lequel exécuter le composant ou la tâche Spark.

Retours

Environnement Azure ML dans lequel exécuter le composant ou la tâche Spark.

Type de retour

id

ID de la ressource.

Retours

ID global de la ressource, id Azure Resource Manager (ARM).

Type de retour

identity

Identité que le travail Spark utilisera lors de l’exécution sur le calcul.

Retours

Identité que le travail Spark utilisera lors de l’exécution sur le calcul.

Type de retour

inputs

log_files

Fichiers de sortie de travail.

Retours

Dictionnaire des noms de journaux et des URL.

Type de retour

outputs

resources

Configuration des ressources de calcul pour le travail.

Retours

Configuration des ressources de calcul pour le travail.

Type de retour

status

État du travail.

Les valeurs courantes retournées sont « Exécution en cours (Running) », « Terminé (Finished) » et « Échec (Failed) ». Toutes les valeurs possibles sont les suivantes :

  • NotStarted : il s’agit d’un état temporaire dans lequel se trouvent les objets Run côté client avant la soumission cloud.

  • Démarrage : l’exécution a commencé à être traitée dans le cloud. L’appelant a un ID d’exécution à ce stade.

  • Approvisionnement : le calcul à la demande est en cours de création pour une soumission de travail donnée.

  • Préparation : l’environnement d’exécution est en cours de préparation et se trouve dans l’une des deux étapes suivantes :

    • Build d’image Docker

    • Configuration de l’environnement Conda

  • Mis en file d’attente : le travail est mis en file d’attente sur la cible de calcul. Par exemple, dans BatchAI, le travail est dans un état mis en file d’attente

    en attendant que tous les nœuds demandés soient prêts.

  • En cours d’exécution : le travail a commencé à s’exécuter sur la cible de calcul.

  • Finalisation : l’exécution du code utilisateur est terminée et l’exécution est en phase de post-traitement.

  • CancelRequested : l’annulation a été demandée pour le travail.

  • Terminé : l’exécution s’est terminée avec succès. Cela inclut à la fois l’exécution et l’exécution du code utilisateur

    Étapes de post-traitement.

  • Failed (Échec) : l’exécution a échoué. En règle générale, la propriété Error d’une exécution fournit des détails sur la raison de l’échec.

  • Annulé : suit une demande d’annulation et indique que l’exécution a bien été annulée.

  • NotResponding : pour les exécutions pour lesquelles des pulsations sont activées, aucune pulsation n’a été envoyée récemment.

Retours

État du travail.

Type de retour

studio_url

Point de terminaison Azure ML Studio.

Retours

URL de la page des détails du travail.

Type de retour

type

Type du travail.

Retours

Type du travail.

Type de retour

CODE_ID_RE_PATTERN

CODE_ID_RE_PATTERN = re.compile('\\/subscriptions\\/(?P<subscription>[\\w,-]+)\\/resourceGroups\\/(?P<resource_group>[\\w,-]+)\\/providers\\/Microsoft\\.MachineLearningServices\\/workspaces\\/(?P<workspace>[\\w,-]+)\\/codes\\/(?P<co)