Databricks Foundation Model API
この記事では、Azure Databricks の Foundation Model API の概要について説明します。 使用要件、サポートされているモデル、制限事項などが含まれます。
Databricks Foundation Model API とは
Mosaic AI Model Serving は、サービス エンドポイントから最先端のオープン モデルにアクセスしてクエリを実行できる Foundation Model API をサポートするようになりました。 Foundation Model API を使うと、独自のモデル デプロイを保守することなく、高品質の生成 AI モデルを利用するアプリケーションを迅速かつ簡単に構築できます。 Foundation Model API は Databricks Designated Service です。つまり、 Databricks Geos を使用して、顧客のコンテンツを処理するときにデータ所在地を管理します。
Foundation Model API は、次の 2 つの価格モードで提供されます。
- トークン単位の支払い: これは Databricks で Foundation Models にアクセスする最も簡単な方法であり、Foundation Models API を使い始めるユーザーにお勧めします。 このモードは、高スループットのアプリケーションやパフォーマンスの高い運用ワークロード向けに設計されていません。
- プロビジョニング済みスループット: このモードは、すべての運用ワークロード、特に高スループット、パフォーマンスの保証、微調整されたモデル、または追加のセキュリティ要件を必要とするワークロードに推奨されます。 プロビジョニングされたスループット エンドポイントは、HIPAA などのコンプライアンス認定で利用できます。
これら 2 つのモードの使用方法とサポートされているモデルのガイダンスについては、「基盤モデル API の使用」を参照してください。
Foundation Model API を使用すると、次のことができます:
- リソースを増やす前に、汎用 LLM のクエリを実行してプロジェクトの有効性を確認する。
- カスタム モデルのトレーニングとデプロイに投資する前に、LLM ベースのアプリケーションの簡単な概念実証を作成するために、汎用 LLM のクエリを実行する。
- 基礎モデルとベクトル データベースを使い、検索拡張生成 (RAG) を使ってチャットボットを構築する。
- 独自のモデルをオープンの代替手段に置き換えて、コストとパフォーマンスを最適化する。
- LLM を効率よく比較して、ユース ケースに最適な候補を確認したり、運用モデルをさらにパフォーマンスの高いものに入れ替えたりする。
- 運用トラフィックの急増に対応できるスケーラブルで SLA によって支えられた LLM サービス ソリューションを基にして、開発または運用のための LLM アプリケーションを構築する。
要件
- エンドポイントへの要求を認証するための Databricks API トークン。
- サーバーレス コンピューティング (プロビジョニングされたスループット モデルの場合)
- サポートされているリージョン内のワークスペース:
Foundation Model API を使う
Foundation Model API を使用するには、複数のオプションがあります。
API は OpenAI と互換性があるため、クエリに OpenAI クライアントを使用できます。 さらに、UI、Foundation Models API の Python SDK、MLflow Deployments SDK、または REST API を使用して、サポートされているモデルに対するクエリを実行することもできます。 Databricks では、拡張操作には OpenAI クライアント SDK または API を使用し、機能を試すには UI を使用することをお勧めします。
スコアリングの例については、 Query の生成 AI モデル を参照してください。
Foundation Model API のトークン単位の支払い
トークン単位の支払いモデルには、Azure Databricks ワークスペースからアクセスでき、作業を開始するために推奨されます。 ワークスペースで Foundation Model API にアクセスするには、左側のサイドバーの [Serving] (提供) タブに移動します。 Foundation Model API は、エンドポイント リスト ビューの上部にあります。
次の表は、トークン単位の支払いがサポートされているモデルをまとめたものです。 その他のモデルの情報については、「トークン単位の支払いでサポートされているモデル」を参照してください。
これらのモデルをテストしてチャットする場合は、AI プレイグラウンドを使用して行うことができます。 AI プレイグラウンドを使用して LLM とチャットし、GenAI アプリのプロトタイプを作成するをご覧ください。
重要
- 2024 年 7 月 23 日以降、Meta-Llama-3.1-70B-Instruct によって、Foundation Model API のトークン単位の支払いエンドポイントでの Meta-Llama-3-70B-Instruct のサポートが置き換えられます。
- Meta-Llama-3.1-405B-Instruct は Meta によって構築とトレーニングを行い、AzureML モデル カタログを使用して Azure Machine Learning で配布され、公開されている最大かつ最先端の大規模言語モデルです。
- 次のモデルは廃止されました。 推奨される代替モデルについては、「廃止モデル」を参照してください。
- Llama 2 70B Chat
- MPT 7B Instruct
- MPT 30B Instruct
モデル | タスクの種類 | エンドポイント | メモ |
---|---|---|---|
GTE Large (英語) | 埋め込み | databricks-gte-large-en |
正規化された埋め込みを生成しません。 |
Meta-Llama-3.1-70B-Instruct | チャット | databricks-meta-llama-3-1-70b-instruct |
|
Meta-Llama-3.1-405B-Instruct* | チャット | databricks-meta-llama-3-1-405b-instruct |
リージョンの可用性については、「Foundation Model API の制限」を参照してください。 |
DBRX Instruct | チャット | databricks-dbrx-instruct |
リージョンの可用性については、「Foundation Model API の制限」を参照してください。 |
Mixtral-8x7B Instruct | チャット | databricks-mixtral-8x7b-instruct |
リージョンの可用性については、「Foundation Model API の制限」を参照してください。 |
BGE Large (英語) | 埋め込み | databricks-bge-large-en |
リージョンの可用性については、「Foundation Model API の制限」を参照してください。 |
*
このモデルの使用時にエンドポイントの障害や安定化エラーが発生した場合、Databricks アカウント チームにお問い合わせください。
- Foundation Model API のクエリを実行する方法のガイダンスについてはQuery の生成 AI モデルを参照してください。
- 必要なパラメーターと構文については、「基盤モデル REST API リファレンス」を参照してください。
プロビジョニング スループット Foundation Model API
プロビジョニング スループットは、パフォーマンス保証を必要とするワークロードの基盤モデル向けに最適化された推論をエンドポイントに提供します。 Databricks では、運用ワークロードにプロビジョニングされたスループットをお勧めしています。 Foundation Model API をプロビジョニング スループット モードでデプロイする方法のステップバイステップ ガイドについては、「プロビジョニング スループット Foundation Model API」を参照してください。
プロビジョニングされたスループットのサポートには、以下が含まれます。
- すべてのサイズのベース モデル。DBRX ベースなど。 ベース モデルは、Databricks Marketplace を使用してアクセスするか、Hugging Face または他の外部ソースからダウンロードして Unity Catalog に登録できます。 後者のアプローチは、採用されている微調整方法に関係なく、サポートされているモデルのどの微調整されたバリアントでも機能します。
- LlamaGuard-7B や
meta-llama/Llama-3.1-8B
などベース モデルの微調整されたバリエーション。 これには、専用データ上で微調整されたモデルが含まれます。 - 完全にカスタムの重みとトークナイザー(ゼロからトレーニングされた重み、基本モデル アーキテクチャを使用した継続的な事前トレーニング済み、 その他のバリエーションなど (CodeLlama など)。
次の表は、プロビジョニングされたスループットでサポートされているモデル アーキテクチャをまとめたものです。
重要
Meta Llama 3.2 は LLAMA 3.2 Community License の下でライセンスされています (Copyright © Meta Platforms, Inc. All Rights Reserved.)。 お客様は、本ライセンスの条件およびLlama 3.2 利用規約を遵守する責任を負います。
Meta Llama 3.1 は LLAMA 3.1 Community License の下でライセンスされています。 著作権 © Meta Platforms, Inc. すべての権利を留保します。 お客様は、該当するモデル ライセンスへのコンプライアンスを遵守する責任を負います。
モデルのアーキテクチャ | タスクの種類 | メモ |
---|---|---|
Meta Llama 3.2 3B | Chat または Completion | サポートされているモデルのバリエーションとリージョンの可用性についてはプロビジョニングされたスループット制限に関する記事を参照してください。 |
Meta Llama 3.2 1B | Chat または Completion | サポートされているモデルのバリエーションとリージョンの可用性についてはプロビジョニングされたスループット制限に関する記事を参照してください。 |
Meta Llama 3.1 | Chat または Completion | サポートされているモデルのバリエーションとリージョンの可用性についてはプロビジョニングされたスループット制限に関する記事を参照してください。 |
Meta Llama 3 | Chat または Completion | |
Meta Llama 2 | Chat または Completion | |
DBRX | Chat または Completion | リージョンの可用性については、「 プロビジョニングされたスループット制限 」を参照してください。 |
ミストラル | Chat または Completion | |
Mixtral | Chat または Completion | |
MPT | Chat または Completion | |
GTE v1.5 (英語) | 埋め込み | 正規化された埋め込みを生成しません。 |
BGE v1.5 (英語) | 埋め込み |
制限事項
Foundation Model API の制限を参照してください。