AI ゲートウェイ対応推論テーブルを使用して提供されたモデルを監視する

[アーティクル]
02/07/2025

重要

この記事では、外部モデル、プロビジョニング済みスループットワークロード、またはエージェントモデルの推論テーブルに適用されるトピックについて説明します。カスタムモデルについては、「推論テーブル」を参照して、モデルの監視とデバッグを行います。

この記事では、提供されるモデルを監視するための AI ゲートウェイ対応推論テーブルについて説明します。推論テーブルは、エンドポイントの受信要求と送信応答を自動的にキャプチャし、Unity カタログデルタテーブルとしてログに記録します。この表のデータを使用して、機械学習モデルの監視、評価、比較、および微調整を行うことができます。

AI ゲートウェイ対応推論テーブルとは

AI ゲートウェイ対応の推論テーブルでは、モザイク AI モデルサービスエンドポイントからの要求入力と応答 (予測) を継続的にログに記録し、Unity カタログの Delta テーブルに保存することで、モデルの監視と診断が簡素化されます。その後、Databricks SQL クエリやノートブックなど、Databricks プラットフォームのすべての機能を使用して、モデルの監視、デバッグ、最適化を行うことができます。

既存または新しく作成されたモデルサービスエンドポイントで推論テーブルを有効にすることができ、そのエンドポイントへの要求は Unity カタログのテーブルに自動的に記録されます。

推論テーブルの一般的なアプリケーションを次に示します。

トレーニングコーパスを作成します。推論テーブルをグラウンドトゥルースラベルと結合することで、モデルの再トレーニングまたは微調整と改善に使用できるトレーニングコーパスを作成できます。 Databricks ジョブを使用すると、継続的なフィードバックループを設定し、再トレーニングを自動化できます。
データとモデルの品質を監視します。 Lakehouse 監視を使用して、モデルのパフォーマンスとデータドリフトを継続的に監視できます。 Lakehouse Monitoring では、関係者と共有できるデータとモデルの品質ダッシュボードが自動的に生成されます。さらに、受信データの変化やモデルのパフォーマンスの低下に基づいて、モデルを再トレーニングする必要があるタイミングをアラートで把握できます。
運用環境の問題をデバッグします。推論テーブルでは、HTTP 状態コード、要求と応答の JSON コード、モデルの実行時間、モデルの実行時に出力トレースなどのデータがログに記録されます。このパフォーマンスデータは、デバッグ目的で使用できます。推論テーブルの履歴データを使用して、履歴要求のモデルパフォーマンスを比較することもできます。

要件

AI ゲートウェイ対応推論テーブルは、プロビジョニングされたスループット使用するエンドポイント、または外部モデル提供するエンドポイントでのみサポートされます。
次のいずれかの Databricks ワークスペース。
- 外部モデルでサポートされているリージョン
- プロビジョンドスループットがサポートされているリージョン
Unity カタログストレージアカウントでプライベート接続が構成されているワークスペースの場合は、「サーバーレスコンピューティングからプライベート接続を構成する」の手順に従います。
Databricks では、推論テーブルのパフォーマンスを最適化するために、予測最適化を有効することをお勧めします。
ワークスペースで Unity カタログが有効になっている必要があります。
エンドポイントの作成者と修正者の両方に、エンドポイントに対する管理可能アクセス許可が必要です。「アクセス制御リスト」を参照してください。
エンドポイントの作成者と修正者の両方に、Unity Catalog で次ののアクセス許可が必要です。
- 指定したカタログに対する USE CATALOG アクセス許可。
- 指定したスキーマに対するアクセス許可はUSE SCHEMAです。
- スキーマ内の CREATE TABLE アクセス許可。

警告

次のいずれかの操作を行うと、推論テーブルがデータのログ記録を停止したり、破損したりする可能性があります。

テーブルスキーマを変更します。
テーブル名を変更します。
テーブルを削除します。
Unity カタログカタログまたはスキーマへのアクセス許可が失われます。

推論テーブルの有効化と無効化

このセクションでは、Serving UI を使用して推論テーブルを有効または無効にする方法について説明します。推論テーブルの所有者は、エンドポイントを作成したユーザーです。テーブルのすべてのアクセス制御リスト (ACL) は、標準の Unity カタログのアクセス許可に従い、テーブル所有者が変更できます。

エンドポイントの作成時に推論テーブルを有効にするには、次の手順に従います。

Databricks Mosaic AI UI で [サービング] をクリックします。
[サービングエンドポイントの作成] をクリックします。
[AI Gateway] セクションで、[推論テーブル を有効にする]選択します。

既存のエンドポイントで推論テーブルを有効にすることもできます。既存のエンドポイント構成を編集するには、次の操作を行います。

[AI Gateway] セクションで、[AI Gateway 編集] をクリックします。
[推論テーブルを有効にする] を選びます。

推論テーブルを無効にするには、次の手順に従います。

エンドポイントページに移動します。
[AI ゲートウェイの編集] をクリックします。
チェックマーク 削除するには、[推論テーブル を有効にする] をクリックします。
AI ゲートウェイの仕様に問題がなければ、[更新] をクリックします。

推論テーブルで結果のクエリと分析を行う

提供されたモデルの準備ができたら、モデルに対して行われたすべての要求が、応答と共に推論テーブルに自動的に記録されます。 UI でテーブルを表示したり、Databricks SQL またはノートブックからテーブルに対してクエリを実行したり、REST API を使用してテーブルにクエリを実行することができます。

UI でテーブルを表示するには、[エンドポイント] ページで、推論テーブルの名前をクリックしてカタログエクスプローラーでテーブルを開きます。

エンドポイントページ推論テーブル名へのリンク

Databricks SQL または Databricks ノートブックからテーブルにクエリを実行するには: 次のようなコードを実行して推論テーブルにクエリを実行できます。

SELECT * FROM <catalog>.<schema>.<payload_table>

** 推論テーブルのデータをエンドポイントで提供される基になる基盤モデルの詳細と結合するには:** 基盤モデルの詳細は、system.serving.served_entities システムテーブルにキャプチャされます。

SELECT * FROM <catalog>.<schema>.<payload_table> payload
JOIN system.serving.served_entities se on payload.served_entity_id = se.served_entity_id

AI ゲートウェイ対応スキーマ推論テーブル

AI Gateway を使用して有効になっている推論テーブルには、次のスキーマがあります。

列名	説明	タイプ
`request_date`	モデルサービス要求を受信した UTC 日付。	DATE
`databricks_request_id`	Azure Databricks によって生成された要求識別子は、要求を処理するすべてのモデルにアタッチされます。	STRING
`request_time`	要求の受信時のタイムスタンプ。	TIMESTAMP
`status_code`	モデルから返された HTTP 状態コード。	INT
`sampling_fraction`	要求がダウンサンプリングされた場合に使用されるサンプリング率。この値は 0 から 1 の間です。1 は、受信要求の 100% が含まれていることを表します。	DOUBLE
`execution_duration_ms`	モデルが推論を実行した時間 (ミリ秒単位)。これには、オーバーヘッドネットワーク待機時間は含まれません。また、モデルが予測を生成するのにかかった時間のみを表します。	BIGINT
`request`	モデルサービスエンドポイントに送信された未加工の要求 JSON 本文。	STRING
`response`	モデルサービスエンドポイントによって返された未加工の応答 JSON 本文。	STRING
`served_entity_id`	提供されるエンティティの一意の ID。	STRING
`logging_error_codes`	データをログに記録できなかったときに発生したエラー。エラーコードには、`MAX_REQUEST_SIZE_EXCEEDED` と `MAX_RESPONSE_SIZE_EXCEEDED`が含まれます。	ARRAY
`requester`	サービスエンドポイントの呼び出し要求にアクセス許可が使用されるユーザーまたはサービスプリンシパルの ID。	STRING

制限事項

プロビジョニング済みスループットのワークロード:
- プロビジョニングされたスループットを使用するエンドポイントを提供する新しいモデルを作成する場合は、AI ゲートウェイが有効な推論テーブルのみがサポートされます。
- プロビジョニングされたスループットを使用するエンドポイントを提供する既存のモデルがあり、以前に 構成された推論テーブルがない場合は、AI ゲートウェイが有効な推論テーブルを使用するように更新できます。
- プロビジョニング済みスループットを使用する既存のモデルサービングエンドポイントがあり、そこに現在構成されている、または以前に構成されていた推論テーブルがある場合、AI ゲートウェイ対応の推論テーブルを使用するように更新することはできません。
- ストリーミング AI エージェント応答ログの場合、ChatCompletion と互換性のあるフィールドとトレースのみが集計されます。
推論テーブルのログ配信は現在最善努力ですが、要求してから1時間以内にログが使用できると期待できます。詳細については、Databricks アカウントチームにお問い合わせください。
ログに記録される要求と応答の最大サイズは 1 MiB (1,048,576 バイト) です。これを超える要求ペイロードと応答ペイロードは null としてログに記録され、logging_error_codes には MAX_REQUEST_SIZE_EXCEEDED または MAX_RESPONSE_SIZE_EXCEEDEDが設定されます。

AI Gateway に固有の制限事項については、「制限事項」を参照してください。一般的なモデルサービスエンドポイントの制限については、「モデルサービスの制限とリージョンの」を参照してください。

次の方法で共有