Databricks 基础模型 API

本文概述了 Azure Databricks 中的基础模型 API。 内容包括使用要求、支持的模型和限制。

什么是 Databricks 基础模型 API?

Mosaic AI 模型服务现在支持基础模型 API,使你可以从服务终结点访问和查询最先进的开放模型。 借助基础模型 API,可快速轻松地构建利用高质量生成式 AI 模型的应用程序,而无需维护自己的模型部署。 基础模型 API 是 Databricks 指定服务,这意味着它在处理客户内容时使用 Databricks Geos 管理数据驻留。

基础模型 API 有两种定价模式:

  • 按令牌付费:这是开始访问 Databricks 基础模型的最简单方法,建议使用基础模型 API 开始你的历程。 此模式不适用于高吞吐量应用程序或高性能生产工作负载。
  • 预配的吞吐量:建议将此模式用于所有生产工作负载,尤其是需要高吞吐量、性能保证、微调模型或具有额外安全要求的工作负载。 预配的吞吐量终结点具有 HIPAA 等合规性认证。

有关如何使用这两种模式的指导以及支持的模型,请参阅使用基础模型 API

使用基础模型 API,可以:

  • 在投入更多资源之前,查询通用 LLM 以验证项目的有效性。
  • 在投资训练和部署自定义模型之前,查询通用 LLM,以便为基于 LLM 的应用程序创建快速概念验证。
  • 使用基础模型和矢量数据库,通过检索增强生成 (RAG) 生成聊天机器人。
  • 将专有模型替换为开放替代项,以优化成本和性能。
  • 有效地比较 LLM,看看哪一个最适合你的用例,或者将生产模型替换为性能更好的模型。
  • 基于可缩放、支持 SLA 和生产流量峰值的 LLM 服务解决方案构建用于开发或生产的 LLM 应用程序。

要求

  • 用于对终结点请求进行身份验证的 Databricks API 令牌。
  • 无服务器计算(用于预配的吞吐量模型)。
  • 受支持区域中的工作区:

使用基础模型 API

有多个选项可用于使用基础模型 API。

API 与 OpenAI 兼容,因此可以使用 OpenAI 客户端进行查询。 还可以使用 UI、基础模型 API Python SDK、MLflow 部署 SDK 或 REST API 来查询支持的模型。 Databricks 建议使用 OpenAI 客户端 SDK 或 API 进行扩展交互,并使用 UI 来试用该功能。

有关评分示例,请参阅 查询生成 AI 模型

按令牌付费的基础模型 API

可在 Azure Databricks 工作区中访问按令牌付费模型,建议使用它们实现入门。 若要在工作区中访问它们,请导航到左侧栏中的“服务”选项卡。 基础模型 API 位于终结点列表视图的顶部。

服务终结点列表

下表汇总了按令牌付费支持的模型。 有关其他模型信息,请参阅按令牌付费支持的模型

如果要测试这些模型并与之聊天,可以使用 AI 操场来实现。 请参阅与 LLM 聊天并使用 AI 操场制作 GenAI 应用原型

重要

  • 从 2024 年 7 月 23 日起,Meta-Llama-3.1-70B-Instruct 支持取代对 Meta-Llama-3-70B-Instruct 的支持,这些终结点按令牌付费。
  • Meta-Llama-3.1-405B-Instruct 是最大的开放可用的先进大型语言模型,由 Meta 构建和训练,由 Azure 机器学习通过 AzureML 模型目录分发。
  • 以下模型现已停用。 有关推荐的替代模型,请参阅已停用的模型
    • Llama 2 70B 聊天
    • MPT 7B 指示
    • MPT 30B Instruct
型号 任务类型 终结点 备注
GTE Large(英语) 嵌入 databricks-gte-large-en 不生成规范化嵌入。
Meta-Llama-3.1-70B-Instruct 聊天 databricks-meta-llama-3-1-70b-instruct
Meta-Llama-3.1-405B-Instruct* 聊天 databricks-meta-llama-3-1-405b-instruct 请参阅基础模型 API 限制,了解区域可用性。
DBRX Instruct 聊天 databricks-dbrx-instruct 请参阅基础模型 API 限制,了解区域可用性。
Mixtral-8x7B Instruct 聊天 databricks-mixtral-8x7b-instruct 请参阅基础模型 API 限制,了解区域可用性。
BGE Large(英语) 嵌入 databricks-bge-large-en 请参阅基础模型 API 限制,了解区域可用性。

* 如果在使用此模型时遇到终结点故障或稳定化错误,请联系 Databricks 客户团队。

预配的吞吐量基础模型 API

“预配吞吐量”为终结点提供了优化的推理,可用于需要性能保证的基础模型工作负载。 Databricks 建议为生产工作负载使用预配吞吐量。 有关如何在预配吞吐量模式下部署基础模型 API 的分步指南,请参阅预配吞吐量基础模型 API

预配的吞吐量支持包括:

  • 各种大小的基础模型,如 DBRX Base。 可以使用 Databricks 市场访问基本模型,也可以从 Hugging Face 或其他外部源下载这些模型,并将其注册到 Unity 目录中。 后一种方法适用于受支持模型的任何微调变体,与所采用的微调方法无关。
  • 基本模型的微调变体,如 LlamaGuard-7B 或 meta-llama/Llama-3.1-8B。 这包括根据专有数据进行微调的模型。
  • 完全自定义的权重和标记器,例如,使用基本模型体系结构(如 CodeLlama)从头开始训练或继续预先训练或其他变体的权重和标记器。

下表汇总了预配吞吐量支持的模型体系结构。

重要

Meta Llama 3.2 已经由 LLAMA 3.2 社区许可完成授权,版权所有 © Meta Platforms, Inc.保留所有权利。 客户负责确保遵守此许可证的条款和 Llama 3.2 可接受的使用策略

Meta Llama 3.1 已经由 LLAMA 3.1 社区许可完成授权,版权所有 © Meta Platforms, Inc.保留所有权利。 客户需负责确保遵守适用的模型许可条款。

模型体系结构 任务类型 备注
Meta Llama 3.2 3B 聊天或补全 有关支持的模型变体和区域可用性,请参阅 预配的吞吐量限制
Meta Llama 3.2 1B 聊天或补全 有关支持的模型变体和区域可用性,请参阅 预配的吞吐量限制
Meta Llama 3.1 聊天或补全 有关支持的模型变体和区域可用性,请参阅 预配的吞吐量限制
Meta Llama 3 聊天或补全
Meta Llama 2 聊天或补全
DBRX 聊天或补全 请参阅 预配的吞吐量限制 ,了解区域可用性。
Mistral 聊天或补全
Mixtral 聊天或补全
MPT 聊天或补全
GTE v1.5(英语) 嵌入 不生成规范化嵌入。
BGE v1.5(英语) 嵌入

限制

请参阅 基础模型 API 限制

其他资源