Настройка гиперпараметров
Библиотеки Python, такие как Optuna, Ray Tune и Hyperopt, упрощают и автоматизируют настройку гиперпараметров, чтобы эффективно найти оптимальный набор гиперпараметров для моделей машинного обучения. Эти библиотеки масштабируется в нескольких вычислительных средах, чтобы быстро найти гиперпараметры с минимальными требованиями к оркестрации вручную и конфигурации.
Optuna
Optuna — это платформа с легким весом, которая упрощает определение динамического пространства поиска для настройки гиперпараметра и выбора модели. Optuna включает некоторые из последних алгоритмов оптимизации и машинного обучения.
Optuna можно легко параллелизировать с Joblib для масштабирования рабочих нагрузок и интеграции с Mlflow для отслеживания гиперпараметров и метрик во всех пробных версиях.
Для начала работы с Optuna см. раздел настройка гиперпараметров с помощью Optuna.
Рэй-мелодия
Databricks Runtime ML включает Ray, платформу с открытым исходным кодом, используемую для параллельной обработки вычислений. Ray Tune — это библиотека настройки гиперпараметров, которая поставляется с Ray и использует Ray в качестве серверной части для распределенных вычислений.
Дополнительные сведения о запуске Ray в Databricks см. в статье "Что такое Ray в Azure Databricks?". Примеры Ray Tune см . в документации по Ray Tune.
Hyperopt
Примечание.
Версия Hyperopt с открытым исходным кодом больше не поддерживается.
Hyperopt будет удален в следующей основной версии DBR ML. Azure Databricks рекомендует использовать Optuna для оптимизации на одном узле или RayTune для аналогичного опыта работы с устаревшей функцией распределенной настройки гиперпараметров Hyperopt. Дополнительные сведения об использовании RayTune в Azure Databricks.
Hyperopt — это библиотека Python, используемая для настройки распределенного гиперпараметра и выбора модели. Hyperopt работает с распределенными алгоритмами машинного обучения, такими как Apache Spark MLlib и Horovod, а также с моделями машинного обучения с использованием одного компьютера, такими как scikit-learn и TensorFlow.
Сведения о начале работы с Hyperopt см. в статье Использование распределенных алгоритмов обучения с помощью Hyperopt.
Автоматическое отслеживание MLflow MLlib
Примечание.
Автоматическое отслеживание MLflow MLlib устарело и отключено по умолчанию в кластерах, где выполняется Среда выполнения Databricks 10.4 LTS ML и выше.
Вместо этого используйте автозапись в журнал MLflow PySpark ML путем вызова mlflow.pyspark.ml.autolog()
, который включается по умолчанию с помощью функции Автозапись в журнал Databricks.
С помощью автоматического отслеживания MLflow MLlib при выполнении кода настройки, использующего CrossValidator или TrainValidationSplit. Гиперпараметры и метрики оценки автоматически регистрируются в MLflow.