次の方法で共有


ワークスペース機能ストア (レガシ)

Note

このドキュメントでは、ワークスペース機能ストアについて説明します。 ワークスペース機能ストアは、2024 年 8 月 19 日午後 4:00:00 (UTC) より前に作成されたワークスペースでのみ使用できます。

Databricks では、Unity Catalog の特徴エンジニアリングを使用することをお勧めします。 ワークスペース機能ストアは、今後非推奨となる予定です。

ワークスペース 機能ストアを使用する理由

ワークスペース機能ストアは、Azure Databricks の他のコンポーネントと完全に統合されています。

  • 探索可能性。 Databricks ワークスペースからアクセスできる Feature Store UI では、既存の特徴を参照および検索できます。
  • 系列。 Azure Databricks で特徴量テーブルを作成すると、特徴量テーブルの作成に使用されたデータ ソースが保存され、アクセスできるようになります。 特徴量テーブル内の各特徴量について、その特徴量を使用しているモデル、ノートブック、ジョブ、エンドポイントにアクセスすることもできます。
  • モデルのスコア付けと提供との統合。 Feature Store の特徴を使用してモデルをトレーニングする場合、モデルは特徴メタデータと共にパッケージ化されます。 バッチ スコアリングまたはオンライン推論にモデルを使用すると、Feature Store から自動的に特徴量が取得されます。 呼び出し元は、それらについて把握したり、新しいデータをスコア付けするために特徴量を検索または結合するためのロジックを含めたりする必要はありません。 これにより、モデルのデプロイと更新がはるかに簡単になります。
  • ポイントインタイム ルックアップ。 Feature Store は、特定の時点の正確さを必要とする時系列およびイベント ベースの使用例をサポートします。

ワークスペース フィーチャー ストアのしくみ

Feature Store を使用した一般的な機械学習ワークフローは、次のパスに従います。

  1. 生データを機能に変換し、目的の機能を含む Spark DataFrame を作成するコードを記述します。
  2. ワークスペース フィーチャー ストアで、DataFrame を機能テーブルとして書き込みます。
  3. 特徴量ストアの特徴量を使用してモデルをトレーニングします。 これを行うと、トレーニングに使用された特徴量の仕様がモデルに格納されます。 モデルが推論に使用されると、適切な特徴量テーブルから特徴量が自動的に結合されます。
  4. モデル レジストリにモデルを登録します。

これで、モデルを使用して新しいデータで予測を行うことができます。 バッチ ユース ケースの場合は、モデルが必要な特徴量を Feature Store から自動的に取得します。

バッチ機械学習ユース ケースでの Feature Store ワークフロー。

リアルタイムに提供するユース ケースの場合は、オンライン ストアに特徴量を公開します。 「サード パーティのオンライン ストア」を参照してください。

推論時に、モデルがオンライン ストアから事前計算された特徴量を読み取って、モデル提供エンドポイントに対するクライアント要求で提供されたデータと結合します。

提供された機械学習モデルにおける Feature Store フロー。

ワークスペース機能ストアの使用を開始する

手始めに、以下のノートブック例を試してください。 この基本的なノートブックでは、特徴量テーブルを作成し、それを使用してモデルをトレーニングした後、自動特徴量検索を使用してバッチ スコアリングを実行する方法について説明しています。 また、特徴エンジニアリング UI について紹介し、それを使って特徴を検索する方法に加え、特徴がどのように作成および使用されるかについて説明します。

基本的なワークスペース Feature Store のノートブックの例

ノートブックを入手

ノートブックのタクシーの例では、特徴の作成と更新に加え、モデル トレーニングとバッチ推論での特徴の使用のプロセスについて説明しています。

ワークスペース Feature Store のノートブックのタクシーの例

ノートブックを入手

サポートされるデータ型

サポートされるデータ型の一覧については、「サポートされるデータ型」を参照してください。