Dela via


Finjustering av hyperparametrar

Python-bibliotek som Optuna, Ray Tune och Hyperopt förenklar och automatiserar hyperparameterjustering för att effektivt hitta en optimal uppsättning hyperparametrar för maskininlärningsmodeller. Dessa bibliotek skalas över flera beräkningar för att snabbt hitta hyperparametrar med minimal manuell orkestrering och konfigurationskrav.

Optuna

Optuna är ett lättviktsramverk som gör det enkelt att definiera ett dynamiskt sökutrymme för justering av hyperparametrar och modellval. Optuna innehåller några av de senaste optimerings- och maskininlärningsalgoritmerna.

Optuna kan enkelt parallelliseras med Joblib för att skala arbetsbelastningar och integreras med Mlflow för att spåra hyperparametrar och mått i utvärderingsversioner.

Information om hur du kommer igång med Optuna finns i Hyperparameterjustering med Optuna.

Ray Tune

Databricks Runtime ML innehåller Ray, ett ramverk med öppen källkod som används för parallell beräkningsbearbetning. Ray Tune är ett hyperparameterjusteringsbibliotek som levereras med Ray och använder Ray som serverdel för distribuerad databehandling.

Mer information om hur du kör Ray på Databricks finns i Vad är Ray på Azure Databricks?. Exempel på Ray Tune finns i Dokumentation om Ray Tune.

Hyperopt

Kommentar

Versionen med öppen källkod av Hyperopt underhålls inte längre.

Hyperopt tas bort i nästa större DBR ML-version. Azure Databricks rekommenderar att du använder Optuna för en liknande upplevelse och åtkomst till mer aktuella algoritmer för hyperparameterjustering.

Hyperopt är ett Python-bibliotek som används för distribuerad hyperparameterjustering och modellval. Hyperopt fungerar med både distribuerade ML-algoritmer som Apache Spark MLlib och Horovod, samt med ML-modeller för enskilda datorer som scikit-learn och TensorFlow.

Information om hur du kommer igång med Hyperopt finns i Använda distribuerade träningsalgoritmer med Hyperopt.

MLlib automatiserad MLflow-spårning

Kommentar

MLlib automatiserad MLflow-spårning är inaktuell och inaktiverad som standard på kluster som kör Databricks Runtime 10.4 LTS ML och senare.

Använd i stället MLflow PySpark ML-automatisk loggning genom att anropa mlflow.pyspark.ml.autolog(), vilket är aktiverat som standard med Automatisk loggning av Databricks.

Med MLlib automatiserad MLflow-spårning, när du kör justeringskod som använder CrossValidator eller TrainValidationSplit. Hyperparametrar och utvärderingsmått loggas automatiskt i MLflow.