次の方法で共有


AI ゲートウェイ対応推論テーブルを使用して提供されたモデルを監視する

重要

この機能はパブリック プレビュー段階にあります。

重要

この記事では、外部モデル、プロビジョニング済みスループット ワークロード、またはエージェント モデルの推論テーブルに適用されるトピックについて説明します。 カスタム モデル については、「推論テーブル」を参照して、モデルの監視とデバッグを行います。

この記事では、提供されるモデルを監視するための AI ゲートウェイ対応推論テーブルについて説明します。 推論テーブルは、エンドポイントの受信要求と送信応答を自動的にキャプチャし、Unity カタログ デルタ テーブルとしてログに記録します。 この表のデータを使用して、機械学習モデルの監視、評価、比較、および微調整を行うことができます。

AI ゲートウェイ対応推論テーブルとは

AI ゲートウェイ対応の推論テーブルでは、モザイク AI モデル サービス エンドポイントからの要求入力と応答 (予測) を継続的にログに記録し、Unity カタログの Delta テーブルに保存することで、モデルの監視と診断が簡素化されます。 その後、Databricks SQL クエリやノートブックなど、Databricks プラットフォームのすべての機能を使用して、モデルの監視、デバッグ、最適化を行うことができます。

既存または新しく作成されたモデル サービス エンドポイントで推論テーブルを有効にすることができ、そのエンドポイントへの要求は Unity カタログのテーブルに自動的に記録されます。

推論テーブルの一般的なアプリケーションを次に示します。

  • トレーニング コーパスを作成します。 推論テーブルをグラウンド トゥルース ラベルと結合することで、モデルの再トレーニングまたは微調整と改善に使用できるトレーニング コーパスを作成できます。 Databricks ジョブを使用すると、継続的なフィードバック ループを設定し、再トレーニングを自動化できます。
  • データとモデルの品質を監視します。 Lakehouse 監視を使用して、モデルのパフォーマンスとデータドリフトを継続的に監視できます。 Lakehouse Monitoring では、関係者と共有できるデータとモデルの品質ダッシュボードが自動的に生成されます。 さらに、受信データの変化やモデルのパフォーマンスの低下に基づいて、モデルを再トレーニングする必要があるタイミングをアラートで把握できます。
  • 運用環境の問題をデバッグします。 推論テーブルでは、HTTP 状態コード、要求と応答の JSON コード、モデルの実行時間、モデルの実行時に 出力 トレースなどのデータがログに記録されます。 このパフォーマンス データは、デバッグ目的で使用できます。 推論テーブルの履歴データを使用して、履歴要求のモデル パフォーマンスを比較することもできます。

要件

  • AI ゲートウェイ対応推論テーブルは、プロビジョニングされたスループット 使用するエンドポイント、または外部モデル 提供するエンドポイントでのみサポートされます。

  • 次のいずれかの Databricks ワークスペース。

  • Unity カタログ ストレージ アカウントでプライベート接続が構成されているワークスペースの場合は、「サーバーレス コンピューティングからプライベート接続を構成する」の手順に従います。

  • Databricks では、推論テーブルのパフォーマンスを最適化するために、予測最適化 を有効 することをお勧めします。

  • ワークスペースで Unity カタログが有効になっている必要があります。

  • エンドポイントの作成者と修正者の両方に、エンドポイントに対する管理可能アクセス許可が必要です。 「アクセス制御リスト」を参照してください。

  • エンドポイントの作成者と修正者の両方に、Unity Catalog で次の のアクセス許可 が必要です。

    • 指定したカタログに対する USE CATALOG アクセス許可。
    • 指定したスキーマに対するアクセス許可はUSE SCHEMAです。
    • スキーマ内の CREATE TABLE アクセス許可。

警告

次のいずれかの操作を行うと、推論テーブルがデータのログ記録を停止したり、破損したりする可能性があります。

  • テーブル スキーマを変更します。
  • テーブル名を変更します。
  • テーブルを削除します。
  • Unity カタログ カタログまたはスキーマへのアクセス許可が失われます。

推論テーブルの有効化と無効化

このセクションでは、Serving UI を使用して推論テーブルを有効または無効にする方法について説明します。 推論テーブルの所有者は、エンドポイントを作成したユーザーです。 テーブルのすべてのアクセス制御リスト (ACL) は、標準の Unity カタログのアクセス許可に従い、テーブル所有者が変更できます。

エンドポイントの作成時に推論テーブルを有効にするには、次の手順に従います。

  1. Databricks Mosaic AI UI で [サービング] をクリックします。
  2. [サービング エンドポイントの作成] をクリックします。
  3. [AI Gateway] セクションで、[推論テーブル を有効にする]選択します。

既存のエンドポイントで推論テーブルを有効にすることもできます。 既存のエンドポイント構成を編集するには、次の操作を行います。

  1. [AI Gateway] セクションで、[AI Gateway 編集] をクリックします。
  2. [推論テーブルを有効にする] を選びます。

推論テーブルを無効にするには、次の手順に従います。

  1. エンドポイント ページに移動します。
  2. [AI ゲートウェイの編集] をクリックします。
  3. チェック マーク 削除するには、[推論テーブル を有効にする] をクリックします。
  4. AI ゲートウェイの仕様に問題がなければ、[更新] をクリックします。

推論テーブルで結果のクエリと分析を行う

提供されたモデルの準備ができたら、モデルに対して行われたすべての要求が、応答と共に推論テーブルに自動的に記録されます。 UI でテーブルを表示したり、Databricks SQL またはノートブックからテーブルに対してクエリを実行したり、REST API を使用してテーブルにクエリを実行することができます。

UI でテーブルを表示するには、[エンドポイント] ページで、推論テーブルの名前をクリックしてカタログ エクスプローラーでテーブルを開きます。

エンドポイント ページ 推論テーブル名へのリンク

Databricks SQL または Databricks ノートブックからテーブルにクエリを実行するには: 次のようなコードを実行して推論テーブルにクエリを実行できます。

SELECT * FROM <catalog>.<schema>.<payload_table>

** 推論テーブルのデータをエンドポイントで提供される基になる基盤モデルの詳細と結合するには:** 基盤モデルの詳細は、system.serving.served_entities システム テーブルにキャプチャされます。

SELECT * FROM <catalog>.<schema>.<payload_table> payload
JOIN system.serving.served_entities se on payload.served_entity_id = se.served_entity_id

AI ゲートウェイ対応スキーマ推論テーブル

AI Gateway を使用して有効になっている推論テーブルには、次のスキーマがあります。

列名 説明 タイプ
request_date モデル サービス要求を受信した UTC 日付。 DATE
databricks_request_id Azure Databricks によって生成された要求識別子は、要求を処理するすべてのモデルにアタッチされます。 STRING
request_time 要求の受信時のタイムスタンプ。 TIMESTAMP
status_code モデルから返された HTTP 状態コード。 INT
sampling_fraction 要求がダウンサンプリングされた場合に使用されるサンプリング率。 この値は 0 から 1 の間です。1 は、受信要求の 100% が含まれていることを表します。 DOUBLE
execution_duration_ms モデルが推論を実行した時間 (ミリ秒単位)。 これには、オーバーヘッド ネットワーク待機時間は含まれません。また、モデルが予測を生成するのにかかった時間のみを表します。 BIGINT
request モデル サービス エンドポイントに送信された未加工の要求 JSON 本文。 STRING
response モデル サービス エンドポイントによって返された未加工の応答 JSON 本文。 STRING
served_entity_id 提供されるエンティティの一意の ID。 STRING
logging_error_codes データをログに記録できなかったときに発生したエラー。 エラー コードには、MAX_REQUEST_SIZE_EXCEEDEDMAX_RESPONSE_SIZE_EXCEEDEDが含まれます。 ARRAY
requester サービス エンドポイントの呼び出し要求にアクセス許可が使用されるユーザーまたはサービス プリンシパルの ID。 STRING

制限事項

  • プロビジョニング済みスループットのワークロード:

    • プロビジョニングされたスループットを使用するエンドポイントを提供する新しいモデルを作成する場合は、AI ゲートウェイが有効な推論テーブルのみがサポートされます。
    • プロビジョニングされたスループットを使用するエンドポイントを提供する既存のモデルがあり、以前に 構成された推論テーブルがない場合は、AI ゲートウェイが有効な推論テーブルを使用するように更新できます。
    • プロビジョニング済みスループットを使用する既存のモデル サービング エンドポイントがあり、そこに現在構成されている、または以前に構成されていた推論テーブルがある場合、AI ゲートウェイ対応の推論テーブルを使用するように更新することはできません
    • ストリーミング AI エージェント応答ログの場合、ChatCompletion と互換性のあるフィールドとトレースのみが集計されます。
  • 推論テーブルのログ配信は現在最善努力ですが、要求してから1時間以内にログが使用できると期待できます。 詳細については、Databricks アカウント チームにお問い合わせください。

  • ログに記録される要求と応答の最大サイズは 1 MiB (1,048,576 バイト) です。 これを超える要求ペイロードと応答ペイロードは null としてログに記録され、logging_error_codes には MAX_REQUEST_SIZE_EXCEEDED または MAX_RESPONSE_SIZE_EXCEEDEDが設定されます。

AI Gateway に固有の制限事項については、「制限事項」を参照してください。 一般的なモデル サービス エンドポイントの制限については、「モデル サービスの制限とリージョンの」を参照してください。