Поделиться через


Хранилище компонентов рабочей области (устаревшая версия)

Примечание.

В этой документации рассматривается хранилище компонентов рабочей области. Хранилище компонентов рабочей области доступно только для рабочих областей, созданных до 19 августа 2024 г., 4:00:00 (UTC).

Databricks рекомендует использовать проектирование компонентов в каталоге Unity. Feature Store рабочей среды будет выведено из эксплуатации в будущем.

Зачем использовать хранилище компонентов рабочей области?

Хранилище компонентов рабочей области полностью интегрировано с другими компонентами Azure Databricks.

  • Возможность обнаружения. Пользовательский интерфейс хранилища признаков, доступный из рабочей области Databricks, позволяет просматривать и находить имеющиеся признаки.
  • Происхождение данных. При создании таблицы функций в Azure Databricks источники данных, используемые для создания таблицы компонентов, сохраняются и доступны. Для каждой функции в таблице компонентов можно также получить доступ к моделям, записным книжкам, заданиям и конечным точкам, которые используют эту функцию.
  • Интеграция со средствами оценки и обслуживания моделей. При использовании признаков из хранилища признаков для обучения модели модель упаковывается с метаданными признаков. При использовании модели для пакетной оценки или вывода через Интернет модель автоматически извлекает признаки из хранилища признаков. Вызывающий не должен знать о них или включать логику поиска и объединения возможностей для оценки новых данных. Это значительно упрощает развертывание и обновление модели.
  • Операции поиска по точке во времени Хранилище признаков поддерживает временные ряды и сценарии использования на основе событий, требующие правильности на момент времени.

Как работает хранилище компонентов рабочей области?

Типичный рабочий процесс машинного обучения, использующий хранилище признаков, выглядит примерно так:

  1. Напишите код для преобразования необработанных данных в признаки и создания объекта DataFrame Spark, содержащего нужные признаки.
  2. Запишите DataFrame как таблицу признаков вхранилище признаков рабочей области.
  3. Обучите модель с помощью признаков из хранилища признаков. При этом модель сохраняет спецификации признаков, используемых для обучения. Если модель используется для вывода, она автоматически присоединяет функции из соответствующих таблиц компонентов.
  4. Зарегистрируйте модель в реестре моделей.

Эту модель теперь можно использовать для создания прогнозов по новым данным. В вариантах использования с пакетной обработакой модель автоматически извлекает необходимые признаки из Хранилища признаков.

Рабочий процесс Хранилища признаков для вариантов использования с пакетным машинным обучением.

Если ваш вариант использования включает обслуживание в реальном времени, опубликуйте признаки в онлайн-хранилище. См . сторонние интернет-магазины.

Во время вывода модель считывает предварительно вычисляемые функции из интернет-магазина и присоединяет их к данным, предоставленным в клиентском запросе к конечной точке обслуживания модели.

Поток Хранилища признаков для обслуживаемых моделей машинного обучения.

Начало работы с хранилищем компонентов рабочей области

Чтобы приступить к работе, попробуйте использовать эти примеры записных книжек. Основная тетрадь пошагово объясняет, как создать таблицу признаков, использовать её для обучения модели, а затем выполнить пакетную оценку с помощью автоматического поиска признаков. Он также содержит сведения о пользовательском интерфейсе проектирования функций и показывает, как его можно использовать для поиска функций и понимания того, как создаются и используются функции.

Пример записной книжки Для хранилища компонентов базовой рабочей области

Возьмите записную книжку

Пример записной книжки для такси иллюстрирует процесс создания функций, их обновления и использования для обучения модели и пакетного вывода.

Пример записной книжки для магазина функций рабочей области

Возьмите записную книжку

Поддерживаемые типы данных

Поддерживаемые типы данных см. в разделе "Поддерживаемые типы данных".