Hyperparameters afstemmen
Python-bibliotheken zoals Optuna, Ray Tune en Hyperopt vereenvoudigen en automatiseren hyperparameterafstemming om efficiënt een optimale set hyperparameters voor machine learning-modellen te vinden. Deze bibliotheken schalen over meerdere berekeningen om snel hyperparameters te vinden met minimale handmatige indelings- en configuratievereisten.
Optuna
Optuna is een lichtgewicht framework waarmee u eenvoudig een dynamische zoekruimte kunt definiëren voor het afstemmen van hyperparameters en modelselectie. Optuna bevat enkele van de nieuwste optimalisatie- en machine learning-algoritmen.
Optuna kan eenvoudig worden geparallelliseerd met Joblib om workloads te schalen en geïntegreerd met Mlflow om hyperparameters en metrische gegevens bij te houden in verschillende experimenten.
Zie Hyperparameter-afstemming met Optuna om aan de slag te gaan met Optuna.
Ray Tune
Databricks Runtime ML bevat Ray, een opensource-framework dat wordt gebruikt voor parallelle rekenverwerking. Ray Tune is een hyperparameterafstemmingsbibliotheek die bij Ray wordt geleverd en Ray gebruikt als back-end voor gedistribueerde computing.
Zie Wat is Ray in Azure Databricks? voor meer informatie over het uitvoeren van Ray op Databricks. Zie de documentatie van Ray Tune voor voorbeelden van Ray Tune.
Hyperopt
Notitie
De opensource-versie van Hyperopt wordt niet meer onderhouden.
Hyperopt wordt verwijderd in de volgende primaire DBR ML-versie. Azure Databricks raadt aan optuna te gebruiken voor een vergelijkbare ervaring en toegang tot meer actuele hyperparameterafstemmingsalgoritmen.
Hyperopt is een Python-bibliotheek die wordt gebruikt voor gedistribueerde afstemming van hyperparameters en modelselectie. Hyperopt werkt met beide gedistribueerde ML-algoritmen, zoals Apache Spark MLlib en Horovod, en met single-machine ML-modellen, zoals scikit-learn en TensorFlow.
Zie Gedistribueerde trainingsalgoritmen gebruiken met Hyperopt om aan de slag te gaan met Hyperopt.
MLlib geautomatiseerde MLflow-tracering
Notitie
MLlib geautomatiseerde MLflow-tracering wordt standaard afgeschaft en uitgeschakeld op clusters met Databricks Runtime 10.4 LTS ML en hoger.
Gebruik in plaats daarvan MLflow PySpark ML autologging door aan te roepen mlflow.pyspark.ml.autolog()
. Deze functie is standaard ingeschakeld met Databricks Autologging.
Wanneer u met MLlib geautomatiseerde MLflow-tracering code uitvoert die gebruikmaakt van CrossValidator of TrainValidationSplit. Hyperparameters en metrische evaluatiegegevens worden automatisch geregistreerd in MLflow.