Mosaic AI 模型服務上支援的基礎模型

發行項
01/04/2025

本文說明您可以使用 Mosaic AI 模型服務運行的基礎模型。

基礎模型是大型、預先定型的類神經網路，可同時針對大型和廣泛的數據定型。這些模型的設計目的是要學習語言、影像或其他數據類型的一般模式，並可透過進一步的訓練來調整特定任務。

模型服務會根據您的需求，提供彈性的選項來裝載和查詢基礎模型：

按令牌付費：適合用於實驗和快速探索。此選項可讓您在 Databricks 工作區中查詢預先設定的端點，而不需要預先承諾基礎結構。
布建的輸送量：建議用於需要效能保證的生產使用案例。此選項可讓您使用優化的服務端點來部署微調的基礎模型。
外部模型：此選項可讓您存取 Databricks 外部裝載的基礎模型，例如 OpenAI 或 Anthropic 所提供的模型。這些模型可以在 Databricks 中集中管理，以簡化治理。

Databricks 上裝載的基礎模型

Databricks 裝載最先進的開放基礎模型，如 Meta Llama。這些模型是使用基礎模型 API 提供，並且可以透過每一令牌付費或預配輸送量來存取。

按令牌付費

建議使用基礎模型介面按字元數計費，以利初步使用和快速探索。使用基礎模型 API 按使用的字元計費所支援的每個模型，都會在 Azure Databricks 工作區中具有預先設定的端點，您可以進行測試和查詢。您也可以使用 AI 遊樂場來與這些模型互動和聊天。

下列 table 概述支援的按令牌付費模型。如需模型特定區域可用性，請參閱基礎模型 API 限制。

重要

從 2024 年 12 月 11 日開始，Meta-Llama-3.3-70B-Instruct 將在基礎模型 API 的每個令牌計費端點中取代 Meta-Llama-3.1-70B-Instruct 的支援。
Meta-Llama-3.1-405B-Instruct 是目前最大、最先進的開放可用大型語言模型，由 Meta 建置和訓練，並透過 Azure Machine Learning 使用 AzureML 模型 Catalog發行。
現在已淘汰下列模型。如需建議的替代模型，請參閱淘汰的模型。
- Llama 2 70B 聊天模式
- MPT 7B 說明
- MPT 30B Instruct

模型	工作類型	端點	筆記
GTE 大型（英文）	嵌入	`databricks-gte-large-en`	不會對 generate 進行內嵌正規化。
Meta-Llama-3.3-70B-指示	聊天	`databricks-meta-llama-3-3-70b-instruct`
Meta-Llama-3.1-405B-Instruct*	聊天	`databricks-meta-llama-3-1-405b-instruct`
DBRX 指示	聊天	`databricks-dbrx-instruct`
Mixtral-8x7B說明	聊天	`databricks-mixtral-8x7b-instruct`
BGE 大型 (英語)	嵌入	`databricks-bge-large-en`

* 如果您在使用此模型時遇到端點失敗或穩定性錯誤，請聯絡 Databricks 帳戶小組。

預配置的吞吐量

建議在生產案例中使用預配置的吞吐量來處理基模 API。您可以建立一個端點，該端點使用設定的吞吐量來部署經過微調的基礎模型架構。當您使用設定的吞吐量時，端點會優化以支援需要效能保證的基礎模型工作負載。

下列 table 摘要說明預配置輸送量支援的模型架構。 Databricks 建議在 Unity 中使用預先訓練的基礎模型來處理配置的吞吐量工作負載。如需瞭解支援的 Meta Llama 模型變體和區域可用性，請查看配置的吞吐量限制。

重要

模型架構	工作類型	筆記
Meta Llama 3.3	聊天或完成
Meta Llama 3.2 3B	聊天模式或完成模式
Meta Llama 3.2 1B	聊天或任務完成
Meta Llama 3.1	聊天或完成
Meta Llama 3	對話或完成
Meta Llama 2	聊天功能或完成功能
DBRX	聊天或完成
Mistral	聊天或完成
Mixtral	聊天或完成
MPT	聊天或完成
GTE v1.5 （英文）	嵌入	不會 generate 正規化內嵌。
BGE v1.5 （英文）	嵌入

Databricks 外部裝載的 Access 基礎模型

LLM providers所建立的基礎模型，例如 OpenAI 和 Anthropic，也可以在 Databricks 上透過外部模型進行存取。這些模型裝載於 Databricks 外部，您可以建立端點來查詢它們。這些端點可以從 Azure Databricks 集中控管，以簡化組織內各種 LLM providers 的使用和管理。

下列提供支援的模型和對應端點類型的非詳盡。您可以使用列出的模型關聯，協助您為任何新發行的模型類型設定端點，因為它們可供指定提供者使用。客戶須負責確保符合適用的模型授權。

注意

隨著 LLM 的快速發展，不保證這個 list 隨時都是最新的。通常支援來自相同提供者的新模型版本，即使它們不在 list上也一樣。

模型提供者	llm/v1/completions	llm/v1/chat	llm/v1/embeddings
OpenAI**	- gpt-3.5-turbo-指令 - babbage-002 - davinci-002	- o1 - o1-mini - o1-mini-2024-09-12 - gpt-3.5-turbo - gpt-4 - gpt-4-turbo - gpt-4-turbo-2024-04 - gpt-4o - gpt-4o-2024-05-13 - gpt-4o-mini	- text-embedding-ada-002（文本嵌入模型ada-002） - text-embedding-3-large - text-embedding-3-small
Azure OpenAI**	- text-davinci-003 - gpt-35-turbo-instruct	- o1 - o1-mini - gpt-35-turbo - gpt-35-turbo-16k - gpt-4 - gpt-4-turbo - gpt-4-32k - gpt-4o - gpt-4o-mini	- text-embedding-ada-002 - text-embedding-3-large（文字嵌入模型3-大型） - text-embedding-3-small
人類	- 克勞德-1 - claude-1.3-100k - 克勞德-2 - claude-2.1 - claude-2.0 - claude-instant-1.2	- claud-3-5-sonnet-latest - claude-3-5-haiku-latest - claude-3-5-opus-latest - claude-3-5-sonnet-20241022 - claude-3-5-haiku-20241022 - claude-3-5-sonnet-20240620 - claude-3-haiku-20240307 - claude-3-opus-20240229 - claude-3-sonnet-20240229
Cohere**	-命令 - 命令燈	- command-r7b-12-2024 - command-r-plus-08-2024 - command-r-08-2024 - command-r-plus - command-r（指令鍵-r） -命令 - command-light-nightly（命令-燈光-夜間） - Command-Light - command-nightly	- embed-english-v2.0 - embed-多語言-v2.0 - embed-english-light-v2.0 - embed-english-v3.0（嵌入英語v3.0） - embed-english-light-v3.0 - embed-multilingual-v3.0 - embed-多語系-light-v3.0
Mosaic 人工智能模型服務	提供端點的 Databricks	提供端點的 Databricks	提供端點的 Databricks
Amazon Bedrock	人類： - claude-instant-v1 - claude-v2 Cohere： - command-text-v14 - command-light-text-v14 AI21 Labs： - j2-grande-instruct - j2-jumbo-instruct - j2-mid - j2-mid-v1 - j2-ultra - j2-ultra-v1	人類： - claude-3-5-sonnet-20241022-v2：0 - claude-3-5-haiku-20241022-v1：0 - claude-3-opus-20240229-v1：0 - claude-3-sonnet-20240229-v1：0 - claude-3-5-sonnet-20240620-v1：0 Cohere： - command-r-plus-v1：0 - command-r-v1：0	亞馬遜河： - titan-embed-text-v1 - titan-embed-g1-text-02 Cohere： - embed-english-v3 - embed-多語言-v3
AI21 Labs†	- j2-mid - j2-light - j2-ultra
Google Cloud Vertex AI	text-bison	- chat-bison - 雙子座Pro - Gemini-1.0-pro - 雙子座-1.5-pro - gemini-1.5-flash - gemini-2.0-flash	- text-embedding-004 - text-embedding-005 - textembedding-gecko

** 模型提供者支援經過微調的完成模型和聊天模型。若要查詢微調的模型，請在 external model 組態的 name 字段中填入您的微調模型名稱。

†模型提供者支援自定義完成模型。

建立服務端點的基礎模型

若要在 AI 應用程式中查詢和使用基礎模型，您必須先建立服務端點的模型。模型服務會使用統一的 API 和 UI 來建立和更新服務端點的基礎模型。

若要建立一個端點來提供透過 Foundation Model API 配置吞吐量的基礎模型微調變體，請參閱使用 REST API 創建您的配置吞吐量端點。
若要建立服務端點以使用外部模型的供應方案存取基礎模型，請參閱建立外部模型服務端點。

提供端點的查詢基礎模型

建立服務端點之後，您就可以查詢基礎模型。模型服務會使用統一的 OpenAI 相容 API 和 SDK 來查詢基礎模型。此統一體驗可簡化您在支援雲端和 providers之間試驗和自定義生產基礎模型的方式。

請參閱查詢基礎模型。

共用方式為