Databricks Foundation Model API
本文提供 Azure Databricks 中基礎模型 API 的概觀。 其中包含使用需求、支援的模型和限制。
什麼是 Databricks 基礎模型 API?
Mosaic AI 模型服務 現在支援基礎模型 API,可讓您從服務端點存取和查詢最先進的開放模型。 透過基礎模型 API,您可以快速且輕鬆地建置利用高品質產生 AI 模型的應用程式,而不需要維護自己的模型部署。 基礎模型 API 是 Databricks 指定的服務,這表示它會使用 Databricks Geos 來管理處理客戶內容時的數據落地。
基礎模型 API 會以下列定價模式提供:
- 按權杖付費:這是在 Databricks 上開始存取基礎模型的最簡單方式,建議您使用基礎模型 API 開始旅程。 此模式不是針對高輸送量應用程式或高效能的生產工作負載所設計。
- 佈建的輸送量:建議針對所有生產工作負載使用此模式,特別是需要高輸送量、效能保證、微調模型或具有其他安全性需求的工作負載。 佈建的輸送量端點可透過 HIPAA 等合規性認證來取得。
如需如何使用這些模式和支援模型的指導,請參閱 Use Foundation Model API。
使用基礎模型 API,您可以執行下列動作:
- 查詢一般化 LLM,以在投資更多資源之前,先確認專案的有效性。
- 在投資訓練和部署自定義模型之前,先查詢一般化 LLM,以建立 LLM 型應用程式的快速概念證明。
- 使用基礎模型以及向量資料庫,使用擷取增強式產生 (RAG) 來建置聊天機器人。
- 將專屬模型取代為開放式替代方案,以最佳化成本和效能。
- 有效率地比較 LLM 以查看哪一個是使用案例的最佳候選項目,或將生產模型交換為較佳的執行模型。
- 在可調整、SLA 支援的 LLM 服務解決方案之上建置 LLM 應用程式,以支援生產流量尖峰。
需求
使用基礎模型 API
您有多個使用基礎模型 API 的選項。
API 與 OpenAI 相容,因此您可以使用 OpenAI 使用者端進行查詢。 您也可以使用UI、基礎模型 API Python SDK、MLflow 部署 SDK 或 REST API 來查詢支援的模型。 Databricks 建議使用 OpenAI 用戶端 SDK 或 API 進行延伸互動,以及嘗試此功能的 UI。
如需評分範例,請參閱 查詢產生 AI 模型 。
按權杖付費基礎模型 API
您可以在 Azure Databricks 工作區中存取按令牌付費模型。 建議使用這些模型來開始使用。 若要在您的工作區中存取它們,請按下左側邊欄中的 [服務] 索引標籤。 基礎模型 API 位於 [端點] 清單檢視的頂端。
下表總結了按權杖付費的支援模式。 如需其他模型資訊,請參閱依權杖付費的支援模型。
如果您想要測試這些模型並與其聊天,您可以使用 AI 遊樂場來執行此動作。 請參閱使用 AI 遊樂場與 LLM 和原型 GenAI 應用程式聊天。
重要
- 從 2024 年 12 月 11 日開始,Meta-Llama-3.3-70B-指示將取代對 Meta-Llama-3.1-70B-指示在基礎模型 API 的每個令牌付費端點中的支援。
- Meta-Llama-3.1-405B-指示是最大的開放可用的大型語言模型,由 Meta 所建置和訓練,並由 Azure 機器學習使用 AzureML 模型目錄散發。
- 現在已淘汰下列模型。 如需建議的替代模型,請參閱淘汰的模型。
- Llama 2 70B Chat
- MPT 7B 指示
- MPT 30B 指示
Model | 工作類型 | 端點 | 備註 |
---|---|---|---|
GTE 大型 (英文) | 內嵌 | databricks-gte-large-en |
不會產生標準化的內嵌。 |
Meta-Llama-3.3-70B-指示 | 聊天 | databricks-meta-llama-3-3-70b-instruct |
|
Meta-Llama-3.1-405B-Instruct* | 聊天 | databricks-meta-llama-3-1-405b-instruct |
如需區域可用性,請參閱基礎模型 API 限制。 |
DBRX Instruct | 聊天 | databricks-dbrx-instruct |
如需區域可用性,請參閱基礎模型 API 限制。 |
Mixtral-8x7B Instruct | 聊天 | databricks-mixtral-8x7b-instruct |
如需區域可用性,請參閱基礎模型 API 限制。 |
BGE 大型 (英文) | 內嵌 | databricks-bge-large-en |
如需區域可用性,請參閱基礎模型 API 限制。 |
*
如果您在使用此模型時遇到端點失敗或穩定錯誤,請連絡 Databricks 帳戶小組。
- 如需如何查詢基礎模型 API 的指引,請參閱 查詢產生 AI 模型 。
- 如需必要參數和語法,請參閱基礎模型 REST API 參考。
佈建的輸送量基礎模型 API
佈建的輸送量為需要效能保證的基礎模型工作負載提供端點最佳化推論。 Databricks 建議為生產工作負載佈建輸送量。 如需如何在佈建整個模式中部署基礎模型 API 的逐步指南,請參閱佈建的輸送量基礎模型 API。
佈建的輸送量支援包括:
- 所有大小的基礎模型。 您可以使用 Databricks 市集來存取基礎模型,或者您也可以從 Hugging Face 或其他外部來源下載模型,並在 Unity 目錄中註冊模型。 後者的方法適用於所支援模型的任何微調變體,不論採用的微調方法為何。
- 微調基礎模型的變體,例如在專屬數據上微調的模型。
- 完全自定義權數和令牌化工具,例如使用基底模型架構(例如 CodeLlama)從頭開始定型或繼續預先定型或其他變化的人員。
下表摘要說明佈建輸送量支援的模型架構。
重要
Meta Llama 3.3 已根據 LLAMA 3.3 社群授權,著作權 © Meta Platforms, Inc. 保留所有權利。 客戶須負責確保其遵守此授權的條款,以及 Llama 3.3 可接受的使用原則。
Meta Llama 3.2 根據 LLAMA 3.2 Community License 獲得授權,Copyright © Meta Platforms, Inc。著作權所有,並保留一切權利。 客戶須負責確保其遵守此授權的條款,以及 Llama 3.2 可接受的使用原則。
Meta Llama 3.1 根據 LLAMA 3.1 Community License 獲得授權,Copyright © Meta Platforms, Inc。著作權所有,並保留一切權利。 客戶應負責確保遵循適用的模型授權。
模型架構 | 工作類型 | 備註 |
---|---|---|
Meta Llama 3.3 | 聊天或完成 | 請參閱 預配置輸送量限制,以瞭解支援的 Meta Llama 模型變體及其地區可用性。 |
Meta Llama 3.2 3B | 聊天或完成 | |
Meta Llama 3.2 1B | 聊天或完成 | |
Meta Llama 3.1 | 聊天或完成 | |
Meta Llama 3 | 聊天或完成 | |
Meta Llama 2 | 聊天或完成 | |
DBRX | 聊天或完成 | 如需區域可用性,請參閱 布建的輸送量限制 。 |
Mistral | 聊天或完成 | |
Mixtral | 聊天或完成 | |
MPT | 聊天或完成 | |
GTE v1.5 (英文) | 內嵌 | 不會產生標準化的內嵌。 |
BGE v1.5 (英文) | 內嵌 |
限制
請參閱 基礎模型 API 限制。