Databricks 基础模型 API
本文概述了 Azure Databricks 中的基础模型 API。 内容包括使用要求、支持的模型和限制。
什么是 Databricks 基础模型 API?
Mosaic AI 模型服务现在支持基础模型 API,使你可以从服务终结点访问和查询最先进的开放模型。 借助基础模型 API,可快速轻松地构建利用高质量生成式 AI 模型的应用程序,而无需维护自己的模型部署。 基础模型 API 是 Databricks 指定服务,这意味着它在处理客户内容时使用 Databricks Geos 管理数据驻留。
基础模型 API 有两种定价模式:
- 按令牌付费:这是开始访问 Databricks 基础模型的最简单方法,建议使用基础模型 API 开始你的历程。 此模式不适用于高吞吐量应用程序或高性能生产工作负载。
- 预配的吞吐量:建议将此模式用于所有生产工作负载,尤其是需要高吞吐量、性能保证、微调模型或具有额外安全要求的工作负载。 预配的吞吐量终结点具有 HIPAA 等合规性认证。
有关如何使用这两种模式的指导以及支持的模型,请参阅使用基础模型 API。
使用基础模型 API,可以:
- 在投入更多资源之前,查询通用 LLM 以验证项目的有效性。
- 在投资训练和部署自定义模型之前,查询通用 LLM,以便为基于 LLM 的应用程序创建快速概念验证。
- 使用基础模型和矢量数据库,通过检索增强生成 (RAG) 生成聊天机器人。
- 将专有模型替换为开放替代项,以优化成本和性能。
- 有效地比较 LLM,看看哪一个最适合你的用例,或者将生产模型替换为性能更好的模型。
- 基于可缩放、支持 SLA 和生产流量峰值的 LLM 服务解决方案构建用于开发或生产的 LLM 应用程序。
要求
使用基础模型 API
有多个选项可用于使用基础模型 API。
API 与 OpenAI 兼容,因此可以使用 OpenAI 客户端进行查询。 还可以使用 UI、基础模型 API Python SDK、MLflow 部署 SDK 或 REST API 来查询支持的模型。 Databricks 建议使用 OpenAI 客户端 SDK 或 API 进行扩展交互,并使用 UI 来试用该功能。
有关评分示例,请参阅 查询生成 AI 模型 。
按令牌付费的基础模型 API
可在 Azure Databricks 工作区中访问按令牌付费模型,建议使用它们实现入门。 若要在工作区中访问它们,请导航到左侧栏中的“服务”选项卡。 基础模型 API 位于终结点列表视图的顶部。
下表汇总了按令牌付费支持的模型。 有关其他模型信息,请参阅按令牌付费支持的模型。
如果要测试这些模型并与之聊天,可以使用 AI 操场来实现。 请参阅与 LLM 聊天并使用 AI 操场制作 GenAI 应用原型。
重要
- 从 2024 年 7 月 23 日起,Meta-Llama-3.1-70B-Instruct 支持取代对 Meta-Llama-3-70B-Instruct 的支持,这些终结点按令牌付费。
- Meta-Llama-3.1-405B-Instruct 是最大的开放可用的先进大型语言模型,由 Meta 构建和训练,由 Azure 机器学习通过 AzureML 模型目录分发。
- 以下模型现已停用。 有关推荐的替代模型,请参阅已停用的模型。
- Llama 2 70B 聊天
- MPT 7B 指示
- MPT 30B Instruct
型号 | 任务类型 | 终结点 | 备注 |
---|---|---|---|
GTE Large(英语) | 嵌入 | databricks-gte-large-en |
不生成规范化嵌入。 |
Meta-Llama-3.1-70B-Instruct | 聊天 | databricks-meta-llama-3-1-70b-instruct |
|
Meta-Llama-3.1-405B-Instruct* | 聊天 | databricks-meta-llama-3-1-405b-instruct |
请参阅基础模型 API 限制,了解区域可用性。 |
DBRX Instruct | 聊天 | databricks-dbrx-instruct |
请参阅基础模型 API 限制,了解区域可用性。 |
Mixtral-8x7B Instruct | 聊天 | databricks-mixtral-8x7b-instruct |
请参阅基础模型 API 限制,了解区域可用性。 |
BGE Large(英语) | 嵌入 | databricks-bge-large-en |
请参阅基础模型 API 限制,了解区域可用性。 |
*
如果在使用此模型时遇到终结点故障或稳定化错误,请联系 Databricks 客户团队。
- 有关如何查询基础模型 API 的指导,请参阅 查询生成 AI 模型。
- 有关所需参数和语法,请参阅基础模型 REST API 参考。
预配的吞吐量基础模型 API
“预配吞吐量”为终结点提供了优化的推理,可用于需要性能保证的基础模型工作负载。 Databricks 建议为生产工作负载使用预配吞吐量。 有关如何在预配吞吐量模式下部署基础模型 API 的分步指南,请参阅预配吞吐量基础模型 API。
预配的吞吐量支持包括:
- 各种大小的基础模型,如 DBRX Base。 可以使用 Databricks 市场访问基本模型,也可以从 Hugging Face 或其他外部源下载这些模型,并将其注册到 Unity 目录中。 后一种方法适用于受支持模型的任何微调变体,与所采用的微调方法无关。
- 基本模型的微调变体,如 LlamaGuard-7B 或
meta-llama/Llama-3.1-8B
。 这包括根据专有数据进行微调的模型。 - 完全自定义的权重和标记器,例如,使用基本模型体系结构(如 CodeLlama)从头开始训练或继续预先训练或其他变体的权重和标记器。
下表汇总了预配吞吐量支持的模型体系结构。
重要
Meta Llama 3.2 已经由 LLAMA 3.2 社区许可完成授权,版权所有 © Meta Platforms, Inc.保留所有权利。 客户负责确保遵守此许可证的条款和 Llama 3.2 可接受的使用策略。
Meta Llama 3.1 已经由 LLAMA 3.1 社区许可完成授权,版权所有 © Meta Platforms, Inc.保留所有权利。 客户需负责确保遵守适用的模型许可条款。
模型体系结构 | 任务类型 | 备注 |
---|---|---|
Meta Llama 3.2 3B | 聊天或补全 | 有关支持的模型变体和区域可用性,请参阅 预配的吞吐量限制 。 |
Meta Llama 3.2 1B | 聊天或补全 | 有关支持的模型变体和区域可用性,请参阅 预配的吞吐量限制 。 |
Meta Llama 3.1 | 聊天或补全 | 有关支持的模型变体和区域可用性,请参阅 预配的吞吐量限制 。 |
Meta Llama 3 | 聊天或补全 | |
Meta Llama 2 | 聊天或补全 | |
DBRX | 聊天或补全 | 请参阅 预配的吞吐量限制 ,了解区域可用性。 |
Mistral | 聊天或补全 | |
Mixtral | 聊天或补全 | |
MPT | 聊天或补全 | |
GTE v1.5(英语) | 嵌入 | 不生成规范化嵌入。 |
BGE v1.5(英语) | 嵌入 |
限制
请参阅 基础模型 API 限制。