RegressionJob Classe
Configuration du travail de régression AutoML.
Initialiser une nouvelle tâche de régression AutoML.
- Héritage
-
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabularRegressionJob
Constructeur
RegressionJob(*, primary_metric: str | None = None, **kwargs)
Paramètres
Méthodes
dump |
Vide le contenu du travail dans un fichier au format YAML. |
set_data |
Définissez la configuration des données. |
set_featurization |
Définissez la configuration de l’ingénierie des fonctionnalités. |
set_limits |
Définissez des limites pour le travail. |
set_training |
Méthode permettant de configurer les paramètres liés à l’entraînement. |
dump
Vide le contenu du travail dans un fichier au format YAML.
dump(dest: str | PathLike | IO, **kwargs) -> None
Paramètres
Chemin d’accès local ou flux de fichiers dans lequel écrire le contenu YAML. Si dest est un chemin de fichier, un nouveau fichier est créé. Si dest est un fichier ouvert, le fichier est écrit directement dans.
- kwargs
- dict
Arguments supplémentaires à passer au sérialiseur YAML.
Exceptions
Déclenché si dest est un chemin de fichier et que le fichier existe déjà.
Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.
set_data
Définissez la configuration des données.
set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None
Paramètres
- training_data
- Input
Données de formation.
- target_column_name
- str
Nom de colonne de la colonne cible.
Exceptions
Déclenché si dest est un chemin de fichier et que le fichier existe déjà.
Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.
set_featurization
Définissez la configuration de l’ingénierie des fonctionnalités.
set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None
Paramètres
- blocked_transformers
- Optional[List[Union[BlockedTransformers, str]]]
Liste des noms de transformateurs à bloquer pendant la caractérisation, la valeur par défaut est None
Dictionnaire de noms de colonnes et de types de caractéristiques utilisés pour mettre à jour l’objectif des colonnes , par défaut, est None
Code ISO 639-3 à trois caractères pour les langues contenues dans le jeu de données. Les langues autres que l’anglais ne sont prises en charge que si vous utilisez le calcul avec GPU. Le language_code « mul » doit être utilisé si le jeu de données contient plusieurs langues. Pour rechercher les codes ISO 639-3 pour différentes langues, reportez-vous à https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes, par défaut, aucun
- transformer_params
- Optional[Dict[str, List[ColumnTransformer]]]
Dictionnaire du transformateur et des paramètres de personnalisation correspondants , par défaut, a la valeur None
S’il faut inclure des méthodes d’ingénierie des fonctionnalités basées sur DNN, par défaut, aucun
Exceptions
Déclenché si dest est un chemin de fichier et que le fichier existe déjà.
Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.
set_limits
Définissez des limites pour le travail.
set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
Paramètres
Si vous souhaitez activer l’arrêt anticipé si le score ne s’améliore pas à court terme, la valeur par défaut est None.
Logique d’arrêt anticipé :
Aucun arrêt anticipé pour les 20 premières itérations (repères).
La fenêtre d’arrêt anticipé commence à la 21ème itération et recherche les early_stopping_n_iters itérations
(actuellement défini sur 10). Cela signifie que la première itération où l’arrêt peut se produire est la 31ème.
AutoML planifie toujours 2 itérations d’ensemble APRÈS l’arrêt précoce, ce qui peut entraîner des scores plus élevés.
L’arrêt anticipé est déclenché si la valeur absolue du meilleur score calculé est la même pour les dernières
early_stopping_n_iters itérations, autrement dit, s’il n’y a pas d’amélioration du score pour early_stopping_n_iters itérations.
Score cible de l’expérience. L’expérimentation se termine une fois ce score atteint. S’il n’est pas spécifié (aucun critère), l’expérimentation s’exécute jusqu’à ce que la métrique principale n’affiche plus de progression. Pour plus d’informations sur les critères de sortie, consultez cet article , la valeur par défaut est None
Il s’agit du nombre maximal d’itérations qui seraient exécutées en parallèle. La valeur par défaut est 1.
- Les clusters AmlCompute prennent en charge une itération exécutée par nœud.
Quand plusieurs exécutions parentes d’expérience AutoML sont effectuées en parallèle sur un seul cluster AmlCompute, la somme des valeurs max_concurrent_trials
de toutes les expériences doit être inférieure ou égale au nombre maximal de nœuds. Sinon, les exécutions sont mises en file d’attente jusqu’à ce que les nœuds soient disponibles.
- DSVM prend en charge plusieurs itérations par nœud.
max_concurrent_trials
Devrait
être inférieur ou égal au nombre de cœurs sur la machine virtuelle DSVM. Quand plusieurs exécutions d’expérience sont effectuées en parallèle sur une seule DSVM, la somme des valeurs max_concurrent_trials
de toutes les expériences doit être inférieure ou égale au nombre maximal de nœuds.
- Databricks :
max_concurrent_trials
doit être inférieur ou égal au nombre de
nœuds worker sur Databricks.
max_concurrent_trials
ne s’applique pas aux exécutions locales. Auparavant, ce paramètre était appelé concurrent_iterations
.
Nombre maximal de threads à utiliser pour une itération d’entraînement donnée. Valeurs acceptables :
Supérieur à 1 et inférieur ou égal au nombre maximal de cœurs sur la cible de calcul.
Égal à -1, ce qui signifie qu’il faut utiliser tous les cœurs possibles par itération et par exécution enfant.
Égal à 1, valeur par défaut.
[Expérimental] Nombre maximal de nœuds à utiliser pour l’entraînement distribué.
Pour la prévision, chaque modèle est entraîné à l’aide de nœuds max(2, int(max_nodes / max_concurrent_trials)).
Pour la classification/régression, chaque modèle est entraîné à l’aide de nœuds max_nodes.
Remarque : ce paramètre est en préversion publique et peut changer à l’avenir.
Nombre total de combinaisons différentes d’algorithmes et de paramètres à tester pendant une expérience de ML automatisé. Si non spécifié, la valeur par défaut est 1000 itérations.
Durée maximale en minutes pendant laquelle toutes les itérations combinées peuvent être effectuées avant que l’expérience ne se termine. Si la valeur n’est pas spécifiée, le délai d’expiration par défaut de l’expérience est de 6 jours. Pour spécifier un délai d’attente inférieur ou égal à 1 heure, assurez-vous que la taille de votre jeu de données n’est pas supérieure à 10 000 000 (colonne lignes et fois colonne) ou qu’une erreur s’affiche par défaut sur Aucun
Durée d’exécution maximale (en minutes) de chaque itération avant de s’arrêter. Si ce n’est pas spécifié, une valeur de 1 mois ou 43200 minutes est utilisée, la valeur par défaut est None
Exceptions
Déclenché si dest est un chemin de fichier et que le fichier existe déjà.
Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.
set_training
Méthode permettant de configurer les paramètres liés à l’entraînement.
set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None
Paramètres
Indique s’il faut activer ou désactiver l’application des modèles compatibles ONNX. La valeur par défaut est False. Pour plus d’informations sur Open Neural Network Exchange (ONNX) et Azure Machine Learning, consultez cet article.
Indique s’il faut inclure des modèles basés sur DNN lors de la sélection du modèle. Toutefois, la valeur par défaut est True pour les tâches DNN NLP et False pour toutes les autres tâches AutoML.
Indique s’il faut activer l’explication du meilleur modèle AutoML à la fin de toutes les itérations d’entraînement AutoML. Pour plus d’informations, consultez Interprétabilité : explications des modèles dans le Machine Learning automatisé. , a la valeur par défaut None
Indique s’il faut activer ou désactiver l’itération StackEnsemble. Si l’indicateur enable_onnx_compatible_models est défini, l’itération StackEnsemble est désactivée. De même, pour les tâches de série chronologique, l’itération StackEnsemble est désactivée par défaut, afin d’éviter les risques de sur-ajustement en raison de l’utilisation d’un petit jeu d’entraînement dans l’ajustement du méta-apprenant. Pour plus d’informations sur les ensembles, consultez Configuration d’ensemble , valeurs par défaut sur Aucun
Indique s’il faut activer ou désactiver l’itération VotingEnsemble. Pour plus d’informations sur les ensembles, consultez Configuration d’ensemble , valeurs par défaut sur Aucun
- stack_ensemble_settings
- Optional[StackEnsembleSettings]
Paramètres de l’itération StackEnsemble, par défaut sur None
Pendant la génération de modèles VotingEnsemble et StackEnsemble, plusieurs modèles ajustés des exécutions enfants précédentes sont téléchargés. Configurez ce paramètre avec une valeur supérieure à 300 secondes. Si plus de temps est nécessaire, la valeur par défaut est None
Liste des noms de modèle à rechercher pour une expérience. S’ils ne sont pas spécifiés, tous les modèles pris en charge pour la tâche sont utilisés moins tous les modèles TensorFlow spécifiés ou blocked_training_algorithms
déconseillés, la valeur par défaut est None
Liste d’algorithmes à ignorer pour une expérience, la valeur par défaut est None
- training_mode
- Optional[Union[str, TabularTrainingMode]]
[Expérimental] Mode d’entraînement à utiliser. Les valeurs possibles sont les suivantes :
distributed- active l’entraînement distribué pour les algorithmes pris en charge.
non_distributed- désactive l’entraînement distribué.
auto - Actuellement, il est identique à non_distributed. À l’avenir, cela pourrait changer.
Remarque : Ce paramètre est en préversion publique et peut changer à l’avenir.
Exceptions
Déclenché si dest est un chemin de fichier et que le fichier existe déjà.
Déclenché si dest est un fichier ouvert et que le fichier n’est pas accessible en écriture.
Attributs
base_path
Chemin d’accès de base de la ressource.
Retours
Chemin d’accès de base de la ressource.
Type de retour
creation_context
Contexte de création de la ressource.
Retours
Métadonnées de création pour la ressource.
Type de retour
featurization
Obtenez les paramètres de caractérisation tabulaire pour le travail AutoML.
Retours
Paramètres de caractérisation tabulaire pour le travail AutoML
Type de retour
id
ID de la ressource.
Retours
ID global de la ressource, id Azure Resource Manager (ARM).
Type de retour
inputs
limits
Obtenez les limites tabulaires du travail AutoML.
Retours
Limites tabulaires pour le travail AutoML
Type de retour
log_files
Fichiers de sortie de travail.
Retours
Dictionnaire des noms de journaux et des URL.
Type de retour
log_verbosity
Obtenez le détail du journal pour le travail AutoML.
Retours
détail du journal pour le travail AutoML
Type de retour
outputs
primary_metric
status
État du travail.
Les valeurs courantes retournées sont « Exécution en cours (Running) », « Terminé (Finished) » et « Échec (Failed) ». Toutes les valeurs possibles sont les suivantes :
NotStarted : il s’agit d’un état temporaire dans lequel se trouvent les objets Run côté client avant la soumission cloud.
Démarrage : l’exécution a commencé à être traitée dans le cloud. L’appelant a un ID d’exécution à ce stade.
Approvisionnement : le calcul à la demande est en cours de création pour une soumission de travail donnée.
Préparation : l’environnement d’exécution est en cours de préparation et se trouve dans l’une des deux étapes suivantes :
Build d’image Docker
Configuration de l’environnement Conda
Mis en file d’attente : le travail est mis en file d’attente sur la cible de calcul. Par exemple, dans BatchAI, le travail est dans un état mis en file d’attente
en attendant que tous les nœuds demandés soient prêts.
En cours d’exécution : le travail a commencé à s’exécuter sur la cible de calcul.
Finalisation : l’exécution du code utilisateur est terminée et l’exécution est en phase de post-traitement.
CancelRequested : l’annulation a été demandée pour le travail.
Terminé : l’exécution s’est terminée avec succès. Cela inclut à la fois l’exécution et l’exécution du code utilisateur
Étapes de post-traitement.
Failed (Échec) : l’exécution a échoué. En règle générale, la propriété Error d’une exécution fournit des détails sur la raison de l’échec.
Annulé : suit une demande d’annulation et indique que l’exécution a bien été annulée.
NotResponding : pour les exécutions pour lesquelles des pulsations sont activées, aucune pulsation n’a été envoyée récemment.
Retours
État du travail.
Type de retour
studio_url
Point de terminaison Azure ML Studio.
Retours
URL de la page des détails du travail.
Type de retour
task_type
Obtenir le type de tâche.
Retours
Type de tâche à exécuter. Les valeurs possibles sont les suivantes : « classification », « régression », « forecasting ».
Type de retour
test_data
training
training_data
type
validation_data
Azure SDK for Python