Entraîner des modèles de classification avec l’API Python AutoML
Cet article montre comment entraîner un modèle avec AutoML à l’aide de l’API Python AutoML. Pour plus d’informations, consultez la référence de l’API Python AutoML.
L’API fournit des fonctions permettant de démarrer des exécutions AutoML pour de la classification, de la régression et des prévisions. Chaque appel de fonction forme un ensemble de modèles et génère un bloc-notes d’évaluation pour chaque modèle.
Consultez les conditions relatives aux expériences AutoML.
Configurer une expérience à l’aide de l’API AutoML
Les étapes suivantes décrivent de manière générale comment configurer une expérience AutoML à l’aide de l’API :
Créez un notebook et attachez-le à un cluster exécutant Databricks Runtime ML.
Identifiez la table que vous souhaitez utiliser à partir de votre source de données existante ou chargez un fichier de données dans DBFS et créez une table.
Pour démarrer une exécution AutoML, utilisez le
automl.regress()
,automl.classify()
ouautoml.forecast()
la fonction et passez la table, ainsi que d’autres paramètres d’apprentissage. Pour afficher toutes les fonctions et paramètres, consultez la référence de l’API Python AutoML.Remarque
La
automl.forecast()
fonction est disponible uniquement pour la prévision sur le calcul classique.Par exemple :
# Regression example summary = automl.regress(dataset=train_pdf, target_col="col_to_predict") # Classification example summary = automl.classification(dataset=train_pdf, target_col="col_to_predict") # Forecasting example summary = automl.forecast(dataset=train_pdf, target_col="col_to_predic", time_col="date_col", horizon=horizon, frequency="d", output_database="default")
Lors du démarrage de l’exécution de AutoML, une URL d’expérimentation MLflow s’affiche dans la console. Utilisez cette URL pour effectuer un monitoring de la progression de l’exécution. Actualisez l’expérience MLflow pour voir les évaluations au fur et à mesure de leur exécution.
Une fois l’exécution de AutoML terminée :
- Utilisez les liens du résumé de sortie pour accéder à l’expérience MLflow ou au notebook qui a généré les meilleurs résultats.
- Utilisez le lien vers le notebook d’exploration des données pour obtenir des insights sur les données passées à AutoML. Vous pouvez également attacher ce notebook au même cluster, et le réexécuter pour reproduire les résultats ou effectuer des analyses de données supplémentaires.
- Utilisez l’objet Summary renvoyé par l’appel AutoML pour explorer des détails supplémentaires sur les versions d’évaluation ou pour charger un modèle formé par un essai donné. Découvrez plus en détail l’objet AutoMLSummary.
- Clonez un notebook généré à partir des essais, puis réexécutez-le en l’attachant au même cluster pour reproduire les résultats. Vous pouvez également apporter les modifications nécessaires, les réexécuter pour former des modèles supplémentaires, et les journaliser dans la même expérience.
Importer un notebook
Pour importer un notebook enregistré en tant qu’artefact MLflow, utilisez l’API Python databricks.automl.import_notebook
. Pour plus d’informations, consultez Importer un notebook
Inscrire et déployer un modèle
Vous pouvez inscrire et déployer votre modèle formé par AutoML comme n’importe quel modèle inscrit dans le registre de modèles MLflow. Consultez Journaliser, charger, inscrire et déployer des modèles MLflow.
Aucun module nommé pandas.core.indexes.numeric
Lors de la distribution d’un modèle créé à l’aide d’AutoML avec le service de modèle, vous pouvez obtenir l’erreur suivante : No module named pandas.core.indexes.numeric
.
Cela est dû à une version pandas
incompatible entre AutoML et l’environnement de point de terminaison de service du modèle. Pour résoudre l’erreur :
- Téléchargez le script add-pandas-dependency.py.
Le script modifie
requirements.txt
etconda.yaml
pour que votre modèle journalisé inclue la version de dépendance appropriéepandas
:pandas==1.5.3
. - Modifiez le script pour inclure le
run_id
de l’exécution MLflow où votre modèle a été journalisé. - Réinscrivez le modèle dans le registre du modèle MLflow.
- Essayez de servir la nouvelle version du modèle MLflow.
Exemple de bloc-notes
Le notebook suivant explique comment effectuer une classification avec AutoML.
Exemple de bloc-notes AutoML classification
Étapes suivantes
Informations de référence sur l’API Python AutoML.