RegressionJob Classe

Référence

Configuration du travail de régression AutoML.

Initialiser une nouvelle tâche de régression AutoML.

Héritage: azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabular

RegressionJob

Constructeur

RegressionJob(*, primary_metric: str | None = None, **kwargs)

Paramètres

primary_metric: str

Obligatoire

Métrique principale à utiliser pour l’optimisation

kwargs: dict

Obligatoire

Arguments spécifiques au travail

Méthodes

dump	Vide le contenu du travail dans un fichier au format YAML.
set_data	Définissez la configuration des données.
set_featurization	Définissez la configuration de l’ingénierie des fonctionnalités.
set_limits	Définissez des limites pour le travail.
set_training	Méthode permettant de configurer les paramètres liés à l’entraînement.

dump

Vide le contenu du travail dans un fichier au format YAML.

dump(dest: str | PathLike | IO, **kwargs) -> None

Paramètres

dest: Union[<xref:PathLike>, str, IO[AnyStr]]

Obligatoire

Chemin d’accès local ou flux de fichiers dans lequel écrire le contenu YAML. Si dest est un chemin de fichier, un nouveau fichier est créé. Si dest est un fichier ouvert, le fichier est écrit directement dans.

kwargs: dict

Arguments supplémentaires à passer au sérialiseur YAML.

Exceptions

FileExistsError

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

IOError

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_data

Définissez la configuration des données.

set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None

Paramètres

training_data: Input

Données de formation.

target_column_name: str

Nom de colonne de la colonne cible.

weight_column_name: Optional[str]

Poids du nom de la colonne, par défaut aucun

validation_data: Optional[Input]

Données de validation, la valeur par défaut est None

validation_data_size: Optional[float]

Taille des données de validation, valeur par défaut None

n_cross_validations: Optional[Union[str, int]]

n_cross_validations, la valeur par défaut est None

cv_split_column_names: Optional[List[str]]

cv_split_column_names, la valeur par défaut est None

test_data: Optional[Input]

Données de test, la valeur par défaut est None

test_data_size: Optional[float]

Taille des données de test, valeur par défaut None

Exceptions

FileExistsError

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

IOError

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_featurization

Définissez la configuration de l’ingénierie des fonctionnalités.

set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None

Paramètres

blocked_transformers: Optional[List[Union[BlockedTransformers, str]]]

Liste des noms de transformateurs à bloquer pendant la caractérisation, la valeur par défaut est None

column_name_and_types: Optional[Dict[str, str]]

Dictionnaire de noms de colonnes et de types de caractéristiques utilisés pour mettre à jour l’objectif des colonnes , par défaut, est None

dataset_language: Optional[str]

Code ISO 639-3 à trois caractères pour les langues contenues dans le jeu de données. Les langues autres que l’anglais ne sont prises en charge que si vous utilisez le calcul avec GPU. Le language_code « mul » doit être utilisé si le jeu de données contient plusieurs langues. Pour rechercher les codes ISO 639-3 pour différentes langues, reportez-vous à https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, par défaut, aucun

transformer_params: Optional[Dict[str, List[ColumnTransformer]]]

Dictionnaire du transformateur et des paramètres de personnalisation correspondants , par défaut, a la valeur None

mode: Optional[str]

« off », « auto », par défaut sur « auto », par défaut sur Aucun

enable_dnn_featurization: Optional[bool]

S’il faut inclure des méthodes d’ingénierie des fonctionnalités basées sur DNN, par défaut, aucun

Exceptions

FileExistsError

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

IOError

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_limits

Définissez des limites pour le travail.

set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

Paramètres

enable_early_termination: Optional[bool]

Si vous souhaitez activer l’arrêt anticipé si le score ne s’améliore pas à court terme, la valeur par défaut est None.

Logique d’arrêt anticipé :

Aucun arrêt anticipé pour les 20 premières itérations (repères).
La fenêtre d’arrêt anticipé commence à la 21ème itération et recherche les early_stopping_n_iters itérations

(actuellement défini sur 10). Cela signifie que la première itération où l’arrêt peut se produire est la 31ème.
AutoML planifie toujours 2 itérations d’ensemble APRÈS l’arrêt précoce, ce qui peut entraîner des scores plus élevés.
L’arrêt anticipé est déclenché si la valeur absolue du meilleur score calculé est la même pour les dernières

early_stopping_n_iters itérations, autrement dit, s’il n’y a pas d’amélioration du score pour early_stopping_n_iters itérations.

exit_score: Optional[float]

Score cible de l’expérience. L’expérimentation se termine une fois ce score atteint. S’il n’est pas spécifié (aucun critère), l’expérimentation s’exécute jusqu’à ce que la métrique principale n’affiche plus de progression. Pour plus d’informations sur les critères de sortie, consultez cet article , la valeur par défaut est None

max_concurrent_trials: Optional[int]

Il s’agit du nombre maximal d’itérations qui seraient exécutées en parallèle. La valeur par défaut est 1.

Les clusters AmlCompute prennent en charge une itération exécutée par nœud.

Quand plusieurs exécutions parentes d’expérience AutoML sont effectuées en parallèle sur un seul cluster AmlCompute, la somme des valeurs max_concurrent_trials de toutes les expériences doit être inférieure ou égale au nombre maximal de nœuds. Sinon, les exécutions sont mises en file d’attente jusqu’à ce que les nœuds soient disponibles.

DSVM prend en charge plusieurs itérations par nœud. max_concurrent_trials Devrait

être inférieur ou égal au nombre de cœurs sur la machine virtuelle DSVM. Quand plusieurs exécutions d’expérience sont effectuées en parallèle sur une seule DSVM, la somme des valeurs max_concurrent_trials de toutes les expériences doit être inférieure ou égale au nombre maximal de nœuds.

Databricks : max_concurrent_trials doit être inférieur ou égal au nombre de

nœuds worker sur Databricks.

max_concurrent_trials ne s’applique pas aux exécutions locales. Auparavant, ce paramètre était appelé concurrent_iterations.

max_cores_per_trial: Optional[int]

Nombre maximal de threads à utiliser pour une itération d’entraînement donnée. Valeurs acceptables :

Supérieur à 1 et inférieur ou égal au nombre maximal de cœurs sur la cible de calcul.
Égal à -1, ce qui signifie qu’il faut utiliser tous les cœurs possibles par itération et par exécution enfant.
Égal à 1, valeur par défaut.

max_nodes: Optional[int]

[Expérimental] Nombre maximal de nœuds à utiliser pour l’entraînement distribué.

Pour la prévision, chaque modèle est entraîné à l’aide de nœuds max(2, int(max_nodes / max_concurrent_trials)).
Pour la classification/régression, chaque modèle est entraîné à l’aide de nœuds max_nodes.

Remarque : ce paramètre est en préversion publique et peut changer à l’avenir.

max_trials: Optional[int]

Nombre total de combinaisons différentes d’algorithmes et de paramètres à tester pendant une expérience de ML automatisé. Si non spécifié, la valeur par défaut est 1000 itérations.

timeout_minutes: Optional[int]

Durée maximale en minutes pendant laquelle toutes les itérations combinées peuvent être effectuées avant que l’expérience ne se termine. Si la valeur n’est pas spécifiée, le délai d’expiration par défaut de l’expérience est de 6 jours. Pour spécifier un délai d’attente inférieur ou égal à 1 heure, assurez-vous que la taille de votre jeu de données n’est pas supérieure à 10 000 000 (colonne lignes et fois colonne) ou qu’une erreur s’affiche par défaut sur Aucun

trial_timeout_minutes: Optional[int]

Durée d’exécution maximale (en minutes) de chaque itération avant de s’arrêter. Si ce n’est pas spécifié, une valeur de 1 mois ou 43200 minutes est utilisée, la valeur par défaut est None

Exceptions

FileExistsError

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

IOError

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

set_training

Méthode permettant de configurer les paramètres liés à l’entraînement.

set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None

Paramètres

enable_onnx_compatible_models: Optional[bool]

Indique s’il faut activer ou désactiver l’application des modèles compatibles ONNX. La valeur par défaut est False. Pour plus d’informations sur Open Neural Network Exchange (ONNX) et Azure Machine Learning, consultez cet article.

enable_dnn_training: Optional[bool]

Indique s’il faut inclure des modèles basés sur DNN lors de la sélection du modèle. Toutefois, la valeur par défaut est True pour les tâches DNN NLP et False pour toutes les autres tâches AutoML.

enable_model_explainability: Optional[bool]

Indique s’il faut activer l’explication du meilleur modèle AutoML à la fin de toutes les itérations d’entraînement AutoML. Pour plus d’informations, consultez Interprétabilité : explications des modèles dans le Machine Learning automatisé. , a la valeur par défaut None

enable_stack_ensemble: Optional[bool]

Indique s’il faut activer ou désactiver l’itération StackEnsemble. Si l’indicateur enable_onnx_compatible_models est défini, l’itération StackEnsemble est désactivée. De même, pour les tâches de série chronologique, l’itération StackEnsemble est désactivée par défaut, afin d’éviter les risques de sur-ajustement en raison de l’utilisation d’un petit jeu d’entraînement dans l’ajustement du méta-apprenant. Pour plus d’informations sur les ensembles, consultez Configuration d’ensemble , valeurs par défaut sur Aucun

enable_vote_ensemble: Optional[bool]

Indique s’il faut activer ou désactiver l’itération VotingEnsemble. Pour plus d’informations sur les ensembles, consultez Configuration d’ensemble , valeurs par défaut sur Aucun

stack_ensemble_settings: Optional[StackEnsembleSettings]

Paramètres de l’itération StackEnsemble, par défaut sur None

ensemble_model_download_timeout: Optional[int]

Pendant la génération de modèles VotingEnsemble et StackEnsemble, plusieurs modèles ajustés des exécutions enfants précédentes sont téléchargés. Configurez ce paramètre avec une valeur supérieure à 300 secondes. Si plus de temps est nécessaire, la valeur par défaut est None

allowed_training_algorithms: Optional[List[str]]

Liste des noms de modèle à rechercher pour une expérience. S’ils ne sont pas spécifiés, tous les modèles pris en charge pour la tâche sont utilisés moins tous les modèles TensorFlow spécifiés ou blocked_training_algorithms déconseillés, la valeur par défaut est None

blocked_training_algorithms: Optional[List[str]]

Liste d’algorithmes à ignorer pour une expérience, la valeur par défaut est None

training_mode: Optional[Union[str, TabularTrainingMode]]

[Expérimental] Mode d’entraînement à utiliser. Les valeurs possibles sont les suivantes :

distributed- active l’entraînement distribué pour les algorithmes pris en charge.
non_distributed- désactive l’entraînement distribué.
auto - Actuellement, il est identique à non_distributed. À l’avenir, cela pourrait changer.

Remarque : Ce paramètre est en préversion publique et peut changer à l’avenir.

Exceptions

FileExistsError

Déclenché si dest est un chemin de fichier et que le fichier existe déjà.

IOError

Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.

Attributs

base_path

Chemin d’accès de base de la ressource.

Retours

Chemin d’accès de base de la ressource.

Type de retour

str

creation_context

Contexte de création de la ressource.

Retours

Métadonnées de création pour la ressource.

Type de retour

Optional[SystemData]

featurization

Obtenez les paramètres de caractérisation tabulaire pour le travail AutoML.

Retours

Paramètres de caractérisation tabulaire pour le travail AutoML

Type de retour

TabularFeaturizationSettings

id

ID de la ressource.

Retours

ID global de la ressource, id Azure Resource Manager (ARM).

Type de retour

Optional[str]

inputs

limits

Obtenez les limites tabulaires du travail AutoML.

Retours

Limites tabulaires pour le travail AutoML

Type de retour

TabularLimitSettings

log_files

Fichiers de sortie de travail.

Retours

Dictionnaire des noms de journaux et des URL.

Type de retour

Optional[Dict[str, str]]

log_verbosity

Obtenez le détail du journal pour le travail AutoML.

Retours

détail du journal pour le travail AutoML

Type de retour

<xref:LogVerbosity>

outputs

primary_metric

status

État du travail.

Les valeurs courantes retournées sont « Exécution en cours (Running) », « Terminé (Finished) » et « Échec (Failed) ». Toutes les valeurs possibles sont les suivantes :

NotStarted : il s’agit d’un état temporaire dans lequel se trouvent les objets Run côté client avant la soumission cloud.
Démarrage : l’exécution a commencé à être traitée dans le cloud. L’appelant a un ID d’exécution à ce stade.
Approvisionnement : le calcul à la demande est en cours de création pour une soumission de travail donnée.
Préparation : l’environnement d’exécution est en cours de préparation et se trouve dans l’une des deux étapes suivantes :
- Build d’image Docker
- Configuration de l’environnement Conda
Mis en file d’attente : le travail est mis en file d’attente sur la cible de calcul. Par exemple, dans BatchAI, le travail est dans un état mis en file d’attente

en attendant que tous les nœuds demandés soient prêts.
En cours d’exécution : le travail a commencé à s’exécuter sur la cible de calcul.
Finalisation : l’exécution du code utilisateur est terminée et l’exécution est en phase de post-traitement.
CancelRequested : l’annulation a été demandée pour le travail.
Terminé : l’exécution s’est terminée avec succès. Cela inclut à la fois l’exécution et l’exécution du code utilisateur

Étapes de post-traitement.
Failed (Échec) : l’exécution a échoué. En règle générale, la propriété Error d’une exécution fournit des détails sur la raison de l’échec.
Annulé : suit une demande d’annulation et indique que l’exécution a bien été annulée.
NotResponding : pour les exécutions pour lesquelles des pulsations sont activées, aucune pulsation n’a été envoyée récemment.

Retours

État du travail.

Type de retour

Optional[str]

studio_url

Point de terminaison Azure ML Studio.

Retours

URL de la page des détails du travail.

Type de retour

Optional[str]

task_type

Obtenir le type de tâche.

Retours

Type de tâche à exécuter. Les valeurs possibles sont les suivantes : « classification », « régression », « forecasting ».

Type de retour

str

test_data

Obtenir des données de test.

Retours

Entrée de données de test

Type de retour

Input

training

training_data

Obtenir des données d’entraînement.

Retours

Entrée de données d’entraînement

Type de retour

Input

type

Type du travail.

Retours

Type du travail.

Type de retour

Optional[str]

validation_data

Obtenir des données de validation.

Retours

Entrée de données de validation

Type de retour

Input

Partager via

RegressionJob Classe

Constructeur

Paramètres

Méthodes

dump

Paramètres

Exceptions

set_data

Paramètres

Exceptions

set_featurization

Paramètres

Exceptions

set_limits

Paramètres

Exceptions

set_training

Paramètres

Exceptions

Attributs

base_path

Retours

Type de retour

creation_context

Retours

Type de retour

featurization

Retours

Type de retour

id

Retours

Type de retour

inputs

limits

Retours

Type de retour

log_files

Retours

Type de retour

log_verbosity

Retours

Type de retour

outputs

primary_metric

status

Retours

Type de retour

studio_url

Retours

Type de retour

task_type

Retours

Type de retour

test_data

Retours

Type de retour

training

training_data

Retours

Type de retour

type

Retours

Type de retour

validation_data

Retours

Type de retour

Ressources supplémentaires