バッチ推論と予測用のモデルをデプロイする
この記事では、バッチ推論とストリーミング推論に Databricks が推奨する内容について説明します。
Azure Databricks で提供されるリアルタイム モデルについては、Azure Databricks での Model の提供を参照してください。
バッチ推論にai_queryを使用する
重要
この機能はパブリック プレビュー段階にあります。
Databricks では、バッチ推論に Model Serving でai_query
を使用することをお勧めします。 ai_query
は、SQL を使用してエンドポイントにサービスを提供する既存のモデルに対してクエリを実行できる組み込みの Databricks SQL 関数です。 数十億のトークンの範囲でデータセットを確実かつ一貫して処理することが検証されています。 この AI 関数の詳細についてはai_query関数を参照してください。
これらのエンドポイントはワークスペースに事前に構成されているため、ai_query
をトークン単位のエンドポイント簡単に実験できます。
大規模なデータまたは運用データに対してバッチ推論を実行する準備ができたら、パフォーマンスを向上させるために、プロビジョニングされたスループット エンドポイントを使用することをお勧めします。 プロビジョニング済みスループット エンドポイント 作成するには プロビジョニング済みスループット基盤モデル API を参照してください。
- ai_queryを使用したバッチ推論のパフォーマンスに関する情報を参照してください。
- Unity カタログ テーブルの LLM を使用したバッチ推論の使用を開始するには、「 Foundation Model API によってプロビジョニングされたスループットを使用したバッチ推論のノートブックの例を参照してください。