Поделиться через


Что такое AutoML?

AutoML упрощает процесс применения машинного обучения к наборам данных, автоматически найдя оптимальный алгоритм и конфигурацию гиперпараметров.

Как работает AutoML?

Укажите набор данных и укажите тип проблемы машинного обучения, а затем AutoML выполняет следующие действия:

  1. Очищает и подготавливает данные.
  2. Оркеструет настройку распределенной модели обучения и гиперпараметра в нескольких алгоритмах.
  3. Находит лучшую модель с помощью алгоритмов оценки открытый код из scikit-learn, xgboost, LightGBM, Пророка и ARIMA.
  4. Отображает результаты. AutoML также создает записные книжки исходного кода для каждой пробной версии, позволяя просматривать, воспроизводить и изменять код по мере необходимости.

Начните работу с экспериментами AutoML с помощью интерфейса low-code для регрессии, классификацииили прогнозирования, или API Python.

Требования

  • Azure Databricks рекомендует Databricks Runtime 10.4 LTS ML или более поздней версии для общедоступной доступности AutoML.

  • AutoML зависит от databricks-automl-runtime пакета, содержащего компоненты, которые полезны за пределами AutoML, а также упрощают создание записных книжек, созданных с помощью обучения AutoML. databricks-automl-runtime доступен в PyPI.

  • Дополнительные библиотеки, отличные от предварительно установленных в Databricks Runtime для Машинное обучение, не должны быть установлены в кластере.

    • Любое изменение (удаление, обновление или понижение) до существующих версий библиотек приводит к сбоям при выполнении из-за несовместимости.
  • Чтобы получить доступ к файлам в рабочей области, необходимо открыть сетевые порты 1017 и 1021 для экспериментов AutoML. Чтобы открыть эти порты или убедиться, что они открыты, просмотрите конфигурацию брандмауэра и правила группы безопасности облака облака или обратитесь к локальному администратору облака. Дополнительные сведения о настройке и развертывании рабочей области см. в статье "Создание рабочей области".

  • Используйте вычислительный ресурс с поддерживаемым режимом доступа к вычислительным ресурсам. Не все режимы доступа к вычислительным ресурсам имеют доступ к каталогу Unity:

    Режим доступа к вычислительным ресурсам Поддержка AutoML Поддержка каталога Unity
    Режим выделенного доступа Поддерживается Поддерживается
    отдельный пользователь Поддерживается (должен быть назначенным отдельным пользователем для кластера) Поддерживается
    Режим общего доступа Не поддерживается Не поддерживается
    Отсутствие общего доступа к изоляции Поддерживается Не поддерживается

Алгоритмы AutoML

AutoML обучает и оценивает модели на основе алгоритмов в следующей таблице.

Примечание.

Для моделей классификации и регрессии дерево принятия решений, случайные леса, логистическая регрессия и линейная регрессия с алгоритмами градиента стохастического градиента основаны на Scikit-learn.

Classification models (Модели классификации) Модели регрессии Модели прогнозирования Модели прогнозирования (бессерверные)
Деревья принятия решений Деревья принятия решений Prophet Prophet
Случайные леса Случайные леса Auto-ARIMA (доступно в Databricks Runtime 10.3 ML и более поздних версий). Auto-ARIMA
Логистическая регрессия Линейная регрессия с использованием стохастического градиентного спуска DeepAR
XGBoost XGBoost
LightGBM LightGBM

Создание пробной записной книжки

Классическое вычисление AutoML создает записные книжки исходного кода за пробными версиями, чтобы вы могли просматривать, воспроизводить и изменять код по мере необходимости.

Для экспериментов прогнозирования записные книжки, созданные autoML, автоматически импортируются в рабочую область для всех пробных версий эксперимента.

Для экспериментов классификации и регрессии записные книжки, созданные AutoML для изучения данных, и лучшие пробные версии эксперимента автоматически импортируются в рабочую область. Созданные записные книжки для других пробных версий экспериментов сохраняются в виде артефактов MLflow в DBFS вместо автоматического импорта в рабочую область. Для всех пробных версий, кроме лучшей пробной версии, notebook_path и notebook_url в API Python TrialInfo не заданы. Если вам нужно использовать эти записные книжки, их можно импортировать вручную в рабочую область с помощью пользовательского интерфейса эксперимента AutoML или databricks.automl.import_notebookAPI Python.

Если вы используете только записную книжку для изучения данных или лучшую пробную записную книжку, созданную autoML, столбец источника в пользовательском интерфейсе эксперимента AutoML содержит ссылку на созданную записную книжку для оптимальной пробной версии.

Если в пользовательском интерфейсе эксперимента AutoML используются другие созданные записные книжки, они не импортируются в рабочую область автоматически. Записные книжки можно найти, щелкнув каждый запуск MLflow. Записная книжка IPython сохраняется в разделе артефактов страницы запуска. Эту записную книжку можно скачать и импортировать в рабочую область, если скачивание артефактов включено администраторами рабочей области.

Значения Шапли (SHAP) для объяснимости модели

Примечание.

Для MLR 11.1 и ниже диаграммы SHAP не создаются, если набор данных содержит столбец datetime.

Блокноты, созданные в ходе выполнения регрессии и классификации с использованием AutoML, включают код для вычисления значений Шапли. Значения Шапли основаны на теории игры и оценивают важность каждой функции для прогнозов модели.

Записные книжки AutoML вычисляют значения Шапли с помощью пакета SHAP. Так как эти вычисления являются очень интенсивными в памяти, вычисления по умолчанию не выполняются.

Чтобы вычислить и отобразить значения Шапли, выполните следующие действия:

  1. Перейдите в раздел "Важность компонентов" в записной книжке, созданной с помощью AutoML.
  2. Задайте shap_enabled = True.
  3. Повторно запустите эту записную книжку.

Следующие шаги