Что такое AutoML?
AutoML — это функция Azure Databricks, которая позволяет автоматизировать обучение и оценку модели машинного обучения с помощью различных сочетаний значений алгоритма и гиперпараметров. С помощью AutoML можно сократить усилия, связанные с процессом обучения итеративной модели, и создать оптимальную модель для ваших данных быстрее.
Как работает AutoML?
AutoML работает путем создания нескольких запусков экспериментов, каждый из которых обучает модель с помощью другого алгоритма и сочетания гиперпараметров. В каждом запуске модель обучена и оценивается на основе данных и прогнозной метрики, указанной вами. Azure Databricks отслеживает запуски и модели, которые они создают с помощью MLflow, что позволяет определить оптимальную модель и развернуть ее в рабочей среде.
- Вы запускаете эксперимент AutoML, указав таблицу в рабочей области Azure Databricks в качестве источника данных для обучения и конкретной метрики производительности, для которой требуется оптимизировать.
- Эксперимент AutoML создает несколько запусков MLflow, каждый из которых создает записную книжку с кодом для предварительной обработки данных перед обучением и проверкой модели. Обученные модели сохраняются в виде артефактов в запусках MLflow или файлах в хранилище DBFS.
- Запуски эксперимента перечислены в порядке производительности, при этом лучше всего показаны модели. Вы можете просмотреть записные книжки, созданные для каждого запуска, выбрать модель, которую вы хотите использовать, а затем зарегистрировать и развернуть ее.
Совет
Дополнительные сведения о конкретных препроцессных преобразованиях и алгоритмах обучения, используемых AutoML, см. в статье о работе Azure Databricks AutoML в документации по Azure Databricks.
Подготовка данных для AutoML
AutoML требует источника обучающих данных, включающих значения признаков и меток. Чтобы предоставить эти данные, создайте таблицу в хранилище метаданных Hive в рабочей области Azure Databricks.
Простой способ создать таблицу обучающих данных для AutoML — отправить файл данных на портале Azure Databricks, как показано здесь.
AutoML создает код для обработки общих задач предварительной обработки данных; например, кодирование категориальных переменных, масштабирование числовых переменных, обработка значений NULL и обработка несбалансированных наборов данных.