Поделиться через


Настройка гиперпараметров

Библиотеки Python, такие как Optuna, Ray Tune и Hyperopt, упрощают и автоматизируют настройку гиперпараметров, чтобы эффективно найти оптимальный набор гиперпараметров для моделей машинного обучения. Эти библиотеки масштабируется в нескольких вычислительных средах, чтобы быстро найти гиперпараметры с минимальными требованиями к оркестрации вручную и конфигурации.

Optuna

Optuna — это платформа с легким весом, которая упрощает определение динамического пространства поиска для настройки гиперпараметра и выбора модели. Optuna включает некоторые из последних алгоритмов оптимизации и машинного обучения.

Optuna можно легко параллелизировать с Joblib для масштабирования рабочих нагрузок и интеграции с Mlflow для отслеживания гиперпараметров и метрик во всех пробных версиях.

Для начала работы с Optuna см. раздел настройка гиперпараметров с помощью Optuna.

Рэй-мелодия

Databricks Runtime ML включает Ray, платформу с открытым исходным кодом, используемую для параллельной обработки вычислений. Ray Tune — это библиотека настройки гиперпараметров, которая поставляется с Ray и использует Ray в качестве серверной части для распределенных вычислений.

Дополнительные сведения о запуске Ray в Databricks см. в статье "Что такое Ray в Azure Databricks?". Примеры Ray Tune см . в документации по Ray Tune.

Hyperopt

Примечание.

Версия Hyperopt с открытым исходным кодом больше не поддерживается.

Hyperopt будет удален в следующей основной версии DBR ML. Azure Databricks рекомендует использовать Optuna для оптимизации на одном узле или RayTune для аналогичного опыта работы с устаревшей функцией распределенной настройки гиперпараметров Hyperopt. Дополнительные сведения об использовании RayTune в Azure Databricks.

Hyperopt — это библиотека Python, используемая для настройки распределенного гиперпараметра и выбора модели. Hyperopt работает с распределенными алгоритмами машинного обучения, такими как Apache Spark MLlib и Horovod, а также с моделями машинного обучения с использованием одного компьютера, такими как scikit-learn и TensorFlow.

Сведения о начале работы с Hyperopt см. в статье Использование распределенных алгоритмов обучения с помощью Hyperopt.

Автоматическое отслеживание MLflow MLlib

Примечание.

Автоматическое отслеживание MLflow MLlib устарело и отключено по умолчанию в кластерах, где выполняется Среда выполнения Databricks 10.4 LTS ML и выше.

Вместо этого используйте автозапись в журнал MLflow PySpark ML путем вызова mlflow.pyspark.ml.autolog(), который включается по умолчанию с помощью функции Автозапись в журнал Databricks.

С помощью автоматического отслеживания MLflow MLlib при выполнении кода настройки, использующего CrossValidator или TrainValidationSplit. Гиперпараметры и метрики оценки автоматически регистрируются в MLflow.