Partager via


automl Paquet

Contient des classes de Machine Learning automatisé pour Azure Machine Learning SDKv2.

Les principaux domaines incluent la gestion des tâches AutoML.

Classes

ClassificationJob

Configuration du travail de classification AutoML.

Initialiser une nouvelle tâche de classification AutoML.

ColumnTransformer

Paramètres du transformateur de colonne.

ForecastingJob

Configuration de la tâche de prévision AutoML.

Initialisez une nouvelle tâche de prévision AutoML.

ForecastingSettings

Paramètres de prévision pour un travail AutoML.

ImageClassificationJob

Configuration du travail de classification d’images multiclasse AutoML.

Initialisez un nouveau travail de classification d’images multiclasse AutoML.

ImageClassificationMultilabelJob

Configuration pour le travail de classification d’images multi-étiquettes AutoML.

Initialisez un nouveau travail de classification d’images multi-étiquettes AutoML.

ImageClassificationSearchSpace

Recherchez dans l’espace de recherche les tâches de classification d’images AutoML et de classification d’images avec plusieurs étiquettes.

ImageInstanceSegmentationJob

Configuration du travail de segmentation d’instance d’image AutoML.

Initialisez un nouveau travail de segmentation d’instance d’image AutoML.

ImageLimitSettings

Limitez les paramètres pour les verticales d’images AutoML.

ImageLimitSettings est une classe qui contient les paramètres suivants : max_concurrent_trials, max_trials et timeout_minutes.

Il s’agit d’une méthode de configuration facultative pour configurer des paramètres de limites, tels que les délais d’expiration, etc.

Notes

Le nombre d’exécutions simultanées est limité par les ressources disponibles dans la cible de calcul spécifiée.

Vérifiez que la cible de calcul dispose des ressources nécessaires à l’accès concurrentiel souhaité.

Conseil

Il est recommandé de faire correspondre max_concurrent_trials nombre de nœuds dans le cluster.

Par exemple, si vous avez un cluster avec 4 nœuds, définissez max_concurrent_trials sur 4.

Exemple d’utilisation

Configuration d’ImageLimitSettings


   from azure.ai.ml import automl

   # Create the AutoML job with the related factory-function.
   image_instance_segmentation_job = automl.image_instance_segmentation(
       compute=compute_name,
       experiment_name=exp_name,
       training_data=my_training_data_input,
       validation_data=my_validation_data_input,
       target_column_name="label",
       primary_metric="MeanAveragePrecision",
       tags={"my_custom_tag": "custom value"},
   )
   # Set the limits for the AutoML job.
   image_instance_segmentation_job.set_limits(
       max_trials=10,
       max_concurrent_trials=2,
   )
   # Submit the AutoML job.
   image_instance_segmentation_job.submit()

Initialiser un objet ImageLimitSettings.

Constructeur pour ImageLimitSettings pour AutoML Image Verticals.

ImageModelSettingsClassification

Paramètres de modèle pour les tâches de classification d’images AutoML.

ImageModelSettingsObjectDetection

Paramètres de modèle pour la tâche de détection d’objets d’image AutoML.

ImageObjectDetectionJob

Configuration pour le travail de détection d’objets d’image AutoML.

Initialisez un nouveau travail de détection d’objets d’image AutoML.

ImageObjectDetectionSearchSpace

Recherchez dans l’espace les tâches Détection d’objets d’image AutoML et Segmentation d’instance d’image.

ImageSweepSettings

Paramètres de balayage pour tous les verticales d’images AutoML.

NlpFeaturizationSettings

Paramètres de caractérisation pour tous les verticaux NLP AutoML.

NlpFixedParameters

Objet pour héberger des paramètres fixes pour les travaux NLP.

NlpLimitSettings

Limitez les paramètres pour tous les verticaux NLP AutoML.

NlpSearchSpace

Recherchez dans l’espace des tâches NLP AutoML.

NlpSweepSettings

Paramètres de balayage pour toutes les tâches NLP AutoML.

RegressionJob

Configuration du travail de régression AutoML.

Initialisez une nouvelle tâche de régression AutoML.

SearchSpace

Classe SearchSpace pour les verticales AutoML.

StackEnsembleSettings

Paramètre avancé pour personnaliser l’exécution de StackEnsemble.

TabularFeaturizationSettings

Paramètres de caractérisation pour un travail AutoML.

TabularLimitSettings

Limitez les paramètres d’une table AutoML Verticals.

TextClassificationJob

Configuration du travail de classification de texte AutoML.

Initialise une nouvelle tâche de classification de texte AutoML.

TextClassificationMultilabelJob

Configuration de la tâche multiétiquette de classification de texte AutoML.

Initialise une nouvelle tâche AutoML Text Classification Multilabel.

TextNerJob

Configuration pour le travail NER de texte AutoML.

Initialise une nouvelle tâche AutoML Text NER.

TrainingSettings

Classe TrainingSettings pour Azure Machine Learning.

Classe TrainingSettings pour Azure Machine Learning.

Énumérations

BlockedTransformers

Énumération pour tous les modèles de classification pris en charge par AutoML.

ClassificationModels

Énumération pour tous les modèles de classification pris en charge par AutoML.

ClassificationMultilabelPrimaryMetrics

Métriques principales pour les tâches de classification multiétiquette.

ClassificationPrimaryMetrics

Métriques principales pour les tâches de classification.

FeaturizationMode

Mode de caractérisation : détermine le mode de caractérisation des données.

ForecastHorizonMode

Énumérez pour déterminer le mode de sélection de l’horizon de prévision.

ForecastingModels

Enum pour tous les modèles de prévision pris en charge par AutoML.

ForecastingPrimaryMetrics

Métriques principales pour la tâche de prévision.

InstanceSegmentationPrimaryMetrics

Métriques principales pour les tâches InstanceSegmentation.

LearningRateScheduler

Énumération du planificateur de taux d’apprentissage.

LogTrainingMetrics

Contient des classes de Machine Learning automatisé pour Azure Machine Learning SDKv2.

Les principaux domaines incluent la gestion des tâches AutoML.

LogValidationLoss

Contient des classes de Machine Learning automatisé pour Azure Machine Learning SDKv2.

Les principaux domaines incluent la gestion des tâches AutoML.

NCrossValidationsMode

Détermine la façon dont la valeur des validations N-Cross est déterminée.

ObjectDetectionPrimaryMetrics

Métriques principales pour la tâche Image ObjectDetection.

RegressionModels

Énumération pour tous les modèles de régression pris en charge par AutoML.

RegressionPrimaryMetrics

Métriques principales pour la tâche régression.

SamplingAlgorithmType

Contient des classes de Machine Learning automatisé pour Azure Machine Learning SDKv2.

Les principaux domaines incluent la gestion des tâches AutoML.

ShortSeriesHandlingConfiguration

Paramètre définissant la manière dont AutoML doit gérer les séries chronologiques courtes.

StochasticOptimizer

Optimiseur stochastique pour les modèles d’image.

TargetAggregationFunction

Fonction d’agrégation cible.

TargetLagsMode

Modes de sélection des retards cibles.

TargetRollingWindowSizeMode

Ciblez le mode de taille des fenêtres propagées.

UseStl

Configurez la décomposition STL de la colonne cible de série chronologique.

ValidationMetricType

Méthode de calcul des métriques à utiliser pour les métriques de validation dans les tâches d’image.

Fonctions

classification

Fonction permettant de créer une tâche de classification.

Un travail de classification est utilisé pour entraîner un modèle qui prédit le mieux la classe d’un échantillon de données. Différents modèles sont entraînés à l’aide des données d’entraînement. Le modèle avec les meilleures performances sur les données de validation en fonction de la métrique principale est sélectionné comme modèle final.

classification(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> ClassificationJob

Paramètres

training_data
Input

Données de formation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).

target_column_name
str

Nom de la colonne d’étiquette. Ce paramètre s’applique aux training_dataparamètres et validation_datatest_data

primary_metric

Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Valeurs acceptables : précision, AUC_weighted, norm_macro_recall, average_precision_score_weighted et precision_score_weighted Précision par défaut

enable_model_explainability
bool

Indique s’il faut activer l’explication du meilleur modèle AutoML à la fin de toutes les itérations d’entraînement AutoML. La valeur par défaut est Aucun. Pour plus d’informations, consultez Interprétabilité : explications des modèles dans le Machine Learning automatisé.

weight_column_name
str

Nom de la colonne de pondération d’échantillons. Le ML automatisé prend en charge une colonne pondérée en entrée. Les lignes des données sont alors pondérées en conséquence. Si les données d'entrée proviennent d'un pandas.DataFrame qui ne possède pas de noms de colonnes, les index de colonnes peuvent être utilisés, exprimés sous forme d'entiers.

Ce paramètre s’applique aux training_data paramètres et validation_data

validation_data
Input

Données de validation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).

La valeur par défaut est None

validation_data_size
float

Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.

Spécifiez validation_data pour fournir des données de validation, sinon définissez n_cross_validations ou validation_data_size pour extraire les données de validation des données d’entraînement spécifiées. Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names.

Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.

La valeur par défaut est None

n_cross_validations
Union[str, int]

Nombre de validations croisées à effectuer quand les données de validation de l’utilisateur ne sont pas spécifiées.

Spécifiez validation_data pour fournir des données de validation, sinon définissez n_cross_validations ou validation_data_size pour extraire les données de validation des données d’entraînement spécifiées. Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names.

Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.

La valeur par défaut est None

cv_split_column_names
List[str]

Liste des noms des colonnes contenant un fractionnement de validation croisée personnalisée. Chaque colonne de fractionnement de validation croisée représente un fractionnement de validation croisée où chaque ligne indique 1 pour l’entraînement ou 0 pour la validation.

La valeur par défaut est None

test_data
Input

La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Données de test à utiliser pour une série de tests et démarrées automatiquement une fois l’apprentissage du modèle terminé. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.

Si ce paramètre ou le test_data_size paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle. Les données de test doivent contenir les fonctionnalités et la colonne d’étiquette. Si test_data est spécifié, le paramètre target_column_name doit l’être.

La valeur par défaut est None

test_data_size
float

La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Fraction des données d’apprentissage à conserver pour les données de test d’une série de tests et automatiquement démarrées au terme de l’apprentissage du modèle. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.

Doit être comprise entre 0,0 et 1,0 non inclus. Si test_data_size est spécifié en même temps que validation_data_size, les données de test sont fractionnées à partir de training_data avant le fractionnement des données de validation. Par exemple, si validation_data_size=0.1, test_data_size=0.1 et les données de formation d’origine ont 1 000 lignes, alors les données de test ont 100 lignes, les données de validation contiennent 90 lignes et les données de formation comportent 810 lignes.

Pour les tâches basées sur la régression, l’échantillonnage aléatoire est utilisé. Pour les tâches de classification, l’échantillonnage stratifié est utilisé. Les prévisions ne prennent pas actuellement en charge la spécification d’un jeu de données de test à l’aide d’un fractionnement formation/test.

Si ce paramètre ou le test_data paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle.

La valeur par défaut est None

Retours

Objet de travail qui peut être soumis à un calcul Azure ML pour exécution.

Type de retour

forecasting

Fonction pour créer un travail de prévision.

Une tâche de prévision est utilisée pour prédire des valeurs cibles pour une période ultérieure en fonction des données historiques. Différents modèles sont entraînés à l’aide des données d’entraînement. Le modèle avec les meilleures performances sur les données de validation en fonction de la métrique principale est sélectionné comme modèle final.

forecasting(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, forecasting_settings: ForecastingSettings | None = None, **kwargs) -> ForecastingJob

Paramètres

training_data
Input

Données de formation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).

target_column_name
str

Nom de la colonne d’étiquette. Ce paramètre s’applique aux training_dataparamètres et validation_datatest_data

primary_metric

Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Valeurs acceptables : r2_score, normalized_mean_absolute_error normalized_root_mean_squared_error Valeurs par défaut normalized_root_mean_squared_error

enable_model_explainability
bool

Indique s’il faut activer l’explication du meilleur modèle AutoML à la fin de toutes les itérations d’entraînement AutoML. La valeur par défaut est Aucun. Pour plus d’informations, consultez Interprétabilité : explications des modèles dans le Machine Learning automatisé.

weight_column_name
str

Nom de la colonne de pondération d’échantillons. Le ML automatisé prend en charge une colonne pondérée en entrée. Les lignes des données sont alors pondérées en conséquence. Si les données d'entrée proviennent d'un pandas.DataFrame qui ne possède pas de noms de colonnes, les index de colonnes peuvent être utilisés, exprimés sous forme d'entiers.

Ce paramètre s’applique aux training_data paramètres et validation_data

validation_data
Input

Données de validation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).

La valeur par défaut est None

validation_data_size
float

Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.

Spécifiez validation_data pour fournir des données de validation, sinon définissez n_cross_validations ou validation_data_size pour extraire les données de validation des données d’entraînement spécifiées. Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names.

Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.

La valeur par défaut est None

n_cross_validations
Union[str, int]

Nombre de validations croisées à effectuer quand les données de validation de l’utilisateur ne sont pas spécifiées.

Spécifiez validation_data pour fournir des données de validation, sinon définissez n_cross_validations ou validation_data_size pour extraire les données de validation des données d’entraînement spécifiées. Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names.

Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.

La valeur par défaut est None

cv_split_column_names
List[str]

Liste des noms des colonnes contenant un fractionnement de validation croisée personnalisée. Chaque colonne de fractionnement de validation croisée représente un fractionnement de validation croisée où chaque ligne indique 1 pour l’entraînement ou 0 pour la validation.

La valeur par défaut est None

test_data
Input

La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Données de test à utiliser pour une série de tests et démarrées automatiquement une fois l’apprentissage du modèle terminé. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.

Si ce paramètre ou le test_data_size paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle. Les données de test doivent contenir les fonctionnalités et la colonne d’étiquette. Si test_data est spécifié, le paramètre target_column_name doit l’être.

La valeur par défaut est None

test_data_size
float

La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Fraction des données d’apprentissage à conserver pour les données de test d’une série de tests et automatiquement démarrées au terme de l’apprentissage du modèle. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.

Doit être comprise entre 0,0 et 1,0 non inclus. Si test_data_size est spécifié en même temps que validation_data_size, les données de test sont fractionnées à partir de training_data avant le fractionnement des données de validation. Par exemple, si validation_data_size=0.1, test_data_size=0.1 et les données de formation d’origine ont 1 000 lignes, alors les données de test ont 100 lignes, les données de validation contiennent 90 lignes et les données de formation comportent 810 lignes.

Pour les tâches basées sur la régression, l’échantillonnage aléatoire est utilisé. Pour les tâches de classification, l’échantillonnage stratifié est utilisé. Les prévisions ne prennent pas actuellement en charge la spécification d’un jeu de données de test à l’aide d’un fractionnement formation/test.

Si ce paramètre ou le test_data paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle.

La valeur par défaut est None

forecasting_settings
ForecastingSettings

Paramètres de la tâche de prévision

Retours

Objet de travail qui peut être soumis à un calcul Azure ML pour exécution.

Type de retour

image_classification

Crée un objet pour le travail de classification multiclasse AutoML Image.

image_classification(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationJob

Paramètres

training_data
Input

Données de formation à utiliser dans l’expérience.

target_column_name
str

Nom de la colonne d’étiquette. Ce paramètre s’applique aux paramètres training_data et validation_data.

primary_metric

Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Valeurs acceptables : précision, AUC_weighted, norm_macro_recall, average_precision_score_weighted et precision_score_weighted Précision par défaut.

validation_data
Input

Données de validation à utiliser dans l’expérience.

validation_data_size
float

Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.

Spécifiez pour fournir des données de validation. Sinon, définissez validation_datavalidation_data_size pour extraire les données de validation des données d’entraînement spécifiées.

La valeur par défaut est .2

kwargs
dict

Dictionnaire des paramètres de configuration supplémentaires.

Retours

Objet de travail de classification d’images qui peut être soumis à un calcul Azure ML pour exécution.

Type de retour

image_classification_multilabel

Crée un objet pour le travail de classification multi-étiquettes AutoML Image.

image_classification_multilabel(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationMultilabelPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationMultilabelJob

Paramètres

training_data
Input

Données de formation à utiliser dans l’expérience.

target_column_name
str

Nom de la colonne d’étiquette. Ce paramètre s’applique aux paramètres training_data et validation_data.

primary_metric

Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Valeurs acceptables : précision, AUC_weighted, norm_macro_recall, average_precision_score_weighted, precision_score_weighted et Iou Par défaut sur Iou.

validation_data
Input

Données de validation à utiliser dans l’expérience.

validation_data_size
float

Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.

Spécifiez validation_data pour fournir des données de validation, sinon défini validation_data_size pour extraire les données de validation des données d’entraînement spécifiées.

Valeurs par défaut : .2

kwargs
dict

Dictionnaire des paramètres de configuration supplémentaires.

Retours

Image objet de travail de classification multi-étiquettes qui peut être envoyé à un calcul Azure ML pour l’exécution.

Type de retour

image_instance_segmentation

Crée un objet pour le travail de segmentation d’instance d’image AutoML.

image_instance_segmentation(*, training_data: Input, target_column_name: str, primary_metric: str | InstanceSegmentationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageInstanceSegmentationJob

Paramètres

training_data
Input

Données de formation à utiliser dans l’expérience.

target_column_name
str

Nom de la colonne d’étiquette. Ce paramètre s’applique aux paramètres training_data et validation_data.

primary_metric

Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Valeurs acceptables : MeanAveragePrecision par défaut sur MeanAveragePrecision.

validation_data
Input

Données de validation à utiliser dans l’expérience.

validation_data_size
float

Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.

Spécifiez validation_data pour fournir des données de validation, sinon défini validation_data_size pour extraire les données de validation des données d’entraînement spécifiées.

Valeurs par défaut : .2

kwargs
dict

Dictionnaire des paramètres de configuration supplémentaires.

Retours

Travail de segmentation d’image instance

Type de retour

image_object_detection

Crée un objet pour le travail de détection d’objet Image AutoML.

image_object_detection(*, training_data: Input, target_column_name: str, primary_metric: str | ObjectDetectionPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageObjectDetectionJob

Paramètres

training_data
Input

Données de formation à utiliser dans l’expérience.

target_column_name
str

Nom de la colonne d’étiquette. Ce paramètre s’applique aux paramètres training_data et validation_data.

primary_metric

Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Valeurs acceptables : MeanAveragePrecision par défaut sur MeanAveragePrecision.

validation_data
Input

Données de validation à utiliser dans l’expérience.

validation_data_size
float

Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.

Spécifiez validation_data pour fournir des données de validation, sinon défini validation_data_size pour extraire les données de validation des données d’entraînement spécifiées.

Valeurs par défaut : .2

kwargs
dict

Dictionnaire des paramètres de configuration supplémentaires.

Retours

Objet de travail de détection d’objet image qui peut être envoyé à un calcul Azure ML pour l’exécution.

Type de retour

regression

Fonction pour créer un travail de régression.

Un travail de régression est utilisé pour entraîner un modèle afin de prédire les valeurs continues d’une variable cible à partir d’un jeu de données. Différents modèles sont entraînés à l’aide des données d’entraînement. Le modèle avec les meilleures performances sur les données de validation en fonction de la métrique principale est sélectionné comme modèle final.

regression(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> RegressionJob

Paramètres

training_data
Input

Données de formation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).

target_column_name
str

Nom de la colonne d’étiquette. Ce paramètre s’applique aux training_dataparamètres et validation_datatest_data

primary_metric

Métrique optimisée par le Machine Learning automatisé pour la sélection du modèle. Le Machine Learning automatisé collecte plus de métriques qu’il ne peut en optimiser. Pour plus d’informations sur le calcul des métriques, consultez https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric.

Valeurs acceptables : spearman_correlation, r2_score, normalized_mean_absolute_error, normalized_root_mean_squared_error. Par défaut, normalized_root_mean_squared_error

enable_model_explainability
bool

Indique s’il faut activer l’explication du meilleur modèle AutoML à la fin de toutes les itérations d’entraînement AutoML. La valeur par défaut est Aucun. Pour plus d’informations, consultez Interprétabilité : explications des modèles dans le Machine Learning automatisé.

weight_column_name
str

Nom de la colonne de pondération d’échantillons. Le ML automatisé prend en charge une colonne pondérée en entrée. Les lignes des données sont alors pondérées en conséquence. Si les données d'entrée proviennent d'un pandas.DataFrame qui ne possède pas de noms de colonnes, les index de colonnes peuvent être utilisés, exprimés sous forme d'entiers.

Ce paramètre s’applique aux training_data paramètres et validation_data

validation_data
Input

Données de validation à utiliser dans l’expérience. Doivent contenir des caractéristiques d’entraînement et une colonne d’étiquette (éventuellement une colonne de pondération d’échantillons).

La valeur par défaut est None

validation_data_size
float

Fraction des données à conserver pour la validation quand les données de validation de l’utilisateur ne sont pas spécifiées. Doit être comprise entre 0,0 et 1,0 non inclus.

Spécifiez validation_data pour fournir des données de validation, sinon définissez n_cross_validations ou validation_data_size pour extraire les données de validation des données d’entraînement spécifiées. Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names.

Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.

La valeur par défaut est None

n_cross_validations
Union[str, int]

Nombre de validations croisées à effectuer quand les données de validation de l’utilisateur ne sont pas spécifiées.

Spécifiez validation_data pour fournir des données de validation, sinon définissez n_cross_validations ou validation_data_size pour extraire les données de validation des données d’entraînement spécifiées. Pour le pli de validation croisée personnalisée, utilisez cv_split_column_names.

Pour plus d’informations, consultez Configurer des fractionnements de données et la validation croisée dans le Machine Learning automatisé.

La valeur par défaut est None

cv_split_column_names
List[str]

Liste des noms des colonnes contenant un fractionnement de validation croisée personnalisée. Chaque colonne de fractionnement de validation croisée représente un fractionnement de validation croisée où chaque ligne indique 1 pour l’entraînement ou 0 pour la validation.

La valeur par défaut est None

test_data
Input

La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Données de test à utiliser pour une série de tests et démarrées automatiquement une fois l’apprentissage du modèle terminé. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.

Si ce paramètre ou le test_data_size paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle. Les données de test doivent contenir les fonctionnalités et la colonne d’étiquette. Si test_data est spécifié, le paramètre target_column_name doit l’être.

La valeur par défaut est None

test_data_size
float

La fonctionnalité de test de modèle utilisant les jeux de données de test ou les fractionnements de données de test est une fonctionnalité en préversion et peut changer à tout moment. Fraction des données d’apprentissage à conserver pour les données de test d’une série de tests et automatiquement démarrées au terme de l’apprentissage du modèle. La série de tests obtient les prédictions à l’aide du meilleur modèle et calcule des métriques en fonction de ces prédictions.

Doit être comprise entre 0,0 et 1,0 non inclus. Si test_data_size est spécifié en même temps que validation_data_size, les données de test sont fractionnées à partir de training_data avant le fractionnement des données de validation. Par exemple, si validation_data_size=0.1, test_data_size=0.1 et les données de formation d’origine ont 1 000 lignes, alors les données de test ont 100 lignes, les données de validation contiennent 90 lignes et les données de formation comportent 810 lignes.

Pour les tâches basées sur la régression, l’échantillonnage aléatoire est utilisé. Pour les tâches de classification, l’échantillonnage stratifié est utilisé. Les prévisions ne prennent pas actuellement en charge la spécification d’un jeu de données de test à l’aide d’un fractionnement formation/test.

Si ce paramètre ou le test_data paramètre n’est pas spécifié, aucune série de tests n’est automatiquement exécutée au terme de l’apprentissage du modèle.

La valeur par défaut est None

Retours

Objet de travail qui peut être soumis à un calcul Azure ML pour exécution.

Type de retour

text_classification

Fonction pour créer un TextClassificationJob.

Un travail de classification de texte est utilisé pour entraîner un modèle qui peut prédire la classe/catégorie d’une donnée de texte. Les données d’entraînement d’entrée doivent inclure une colonne cible qui classifie le texte en une seule classe.

text_classification(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationJob

Paramètres

training_data
Input

Données de formation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.

target_column_name
str

Nom de la colonne cible.

validation_data
Input

Données de validation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.

primary_metric
Union[str, ClassificationPrimaryMetrics]

Métrique principale pour la tâche. Valeurs acceptables : précision, AUC_weighted, precision_score_weighted

log_verbosity
str

Niveau de détail du journal.

kwargs
dict

Dictionnaire des paramètres de configuration supplémentaires.

Retours

Objet TextClassificationJob.

Type de retour

text_classification_multilabel

Fonction pour créer un TextClassificationMultilabelJob.

Un travail multiétiquette de classification de texte est utilisé pour entraîner un modèle capable de prédire les classes/catégories d’une donnée de texte. Les données d’entraînement d’entrée doivent inclure une colonne cible qui classifie le texte en classe(s). Pour plus d’informations sur le format des données multiétiquettes, consultez : https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#multi-label

text_classification_multilabel(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationMultilabelJob

Paramètres

training_data
Input

Données de formation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.

target_column_name
str

Nom de la colonne cible.

validation_data
Input

Données de validation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.

primary_metric
str

Métrique principale pour la tâche. Valeurs acceptables : précision

log_verbosity
str

Niveau de détail du journal.

kwargs
dict

Dictionnaire des paramètres de configuration supplémentaires.

Retours

Objet TextClassificationMultilabelJob.

Type de retour

text_ner

Fonction pour créer un TextNerJob.

Un travail de reconnaissance d’entité nommé de texte est utilisé pour entraîner un modèle capable de prédire les entités nommées dans le texte. Les données d’entraînement d’entrée doivent être un fichier texte au format CoNLL. Pour plus d’informations sur le format des données NER de texte, reportez-vous à : https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#named-entity-recognition-ner

text_ner(*, training_data: Input, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextNerJob

Paramètres

training_data
Input

Données de formation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.

validation_data
Input

Données de validation à utiliser dans l’expérience. Il doit contenir à la fois des fonctionnalités d’entraînement et une colonne cible.

primary_metric
str

Métrique principale pour la tâche. Valeurs acceptables : précision

log_verbosity
str

Niveau de détail du journal.

kwargs
dict

Dictionnaire des paramètres de configuration supplémentaires.

Retours

Objet TextNerJob.

Type de retour