Поделиться через


Хранилище компонентов рабочей области (устаревшая версия)

Примечание.

В этой документации рассматривается хранилище компонентов рабочей области. Хранилище компонентов рабочей области доступно только для рабочих областей, созданных до 19 августа 2024 г., 4:00:00 (UTC).

Databricks рекомендует использовать инженерию признаков в Unity Catalog. Feature Store рабочей среды будет выведено из эксплуатации в будущем.

Зачем использовать хранилище компонентов рабочей области?

Хранилище компонентов рабочей области полностью интегрировано с другими компонентами Azure Databricks.

  • Возможность обнаружения. Пользовательский интерфейс хранилища признаков, доступный из рабочей области Databricks, позволяет просматривать и находить имеющиеся признаки.
  • Происхождение. При создании таблицы функций в Azure Databricks источники данных, используемые для создания таблицы компонентов, сохраняются и доступны. Для каждой функции в таблице компонентов можно также получить доступ к моделям, записным книжкам, заданиям и конечным точкам, которые используют эту функцию.
  • Интеграция со средствами оценки и обслуживания моделей. При использовании признаков из хранилища признаков для обучения модели модель упаковывается с метаданными признаков. При использовании модели для массовой оценки или интерактивного вывода модель автоматически извлекает признаки из хранилища признаков. Вызывающему не требуется знать о них или включать логику для поиска или объединения признаков для оценки новых данных. Это значительно упрощает развертывание и обновление модели.
  • Операции поиска по точке во времени Хранилище признаков поддерживает временные ряды и сценарии использования на основе событий, требующие корректности на момент времени.

Как работает хранилище компонентов рабочей области?

Типичный рабочий процесс машинного обучения, использующий хранилище признаков, выглядит примерно так:

  1. Напишите код для преобразования необработанных данных в признаки и создания объекта DataFrame Spark, содержащего нужные признаки.
  2. Записать DataFrame в качестве таблицы признаков в Хранилище признаков рабочей области.
  3. Обучите модель, используя функции из хранилища функций. Когда вы это делаете, модель сохраняет характеристики признаков, используемых для обучения. Если модель используется для вывода, она автоматически присоединяет функции из соответствующих таблиц компонентов.
  4. Зарегистрируйте модель в реестре моделей.

Эту модель теперь можно использовать для создания прогнозов по новым данным. Для пакетных случаев использования модель автоматически извлекает необходимые признаки из хранилища признаков.

Процесс Feature Store для пакетного машинного обучения.

Если ваш вариант использования включает обслуживание в реальном времени, опубликуйте характеристики в онлайн-хранилище. См . сторонние интернет-магазины.

Во время вывода модель считывает предварительно вычисляемые функции из интернет-магазина и присоединяет их к данным, предоставленным в клиентском запросе к конечной точке обслуживания модели.

Поток Хранилища признаков для обслуживаемых моделей машинного обучения.

Начало работы с хранилищем компонентов рабочей области

Чтобы приступить к работе, попробуйте использовать эти примеры записных книжек. Основная тетрадь пошагово объясняет, как создать таблицу признаков, использовать её для обучения модели, а затем выполнить пакетную оценку с помощью автоматического поиска признаков. Он также содержит сведения о пользовательском интерфейсе проектирования функций и показывает, как его можно использовать для поиска функций и понимания того, как создаются и используются функции.

Пример записной книжки Для хранилища компонентов базовой рабочей области

Возьмите записную книжку

Пример записной книжки для такси иллюстрирует процесс создания функций, их обновления и использования для обучения модели и пакетного вывода.

Пример записной книжки для магазина функций рабочей области

Возьмите записную книжку

Поддерживаемые типы данных

Поддерживаемые типы данных см. в разделе "Поддерживаемые типы данных".