Mosaic AI 网关

重要

此功能目前以公共预览版提供。

什么是 Mosaic AI 网关?

马赛克 AI 网关旨在简化组织中生成 AI 模型和代理的使用和管理。 它是一种集中式服务,为模型服务端点带来了治理、监视和生产就绪。 它还允许你运行、保护和治理 AI 流量,以实现组织 AI 采用的民主化和加速采用。

所有数据都记录到 Unity Catalog 中的 Delta 表。

若要从 AI 网关数据开始可视化见解,请从 GitHub 下载 示例 AI 网关仪表板 。 此仪表板利用使用情况跟踪和有效负载日志记录推理表中的数据。

下载 JSON 文件后,请将仪表板导入工作区。 有关导入仪表板的说明,请参阅导入仪表板文件

支持的功能

下表列出并定义了可用的 AI 网关功能,以及哪些模型服务终结点类型支持这些功能。

功能 定义 外部模型终结点 基础模型 API 预配吞吐量终结点 Mosaic AI 代理
权限和速率限制 控制谁具有访问权限以及访问权限的程度。
有效负载日志记录 使用 推理表监视和审核发送到模型 API 的数据。
使用情况跟踪 使用系统表监视终结点上的操作使用情况和相关成本。
AI 护栏 防止请求和响应中不需要的数据和不安全的数据。 请参阅 AI 护栏
流量路由 在部署期间和部署后尽量减少生产中断。

Mosaic AI 网关基于已启用的功能产生费用。 预览期间,这些付费功能包括 AI 护栏、有效负载日志记录和使用情况跟踪。 查询权限、速率限制和流量路由等功能免费提供。 任何新功能都需付费。

下表反映了付费 AI 网关功能的每百万 (M) 令牌 Databricks 单位 (DBU) 费率。 费用列在 Serverless Real-time Inference SKU 下。

功能 DBU 费率
AI 护栏 每百万令牌 21.429 个 DBU
有效负载日志记录 每百万令牌 2.857 个 DBU
使用情况跟踪 每百万令牌 0.571 个 DBU

AI 护栏

AI 护栏允许用户在模型服务端点级别配置和强制执行数据合规性,并减少发送到基础模型的任何请求中的有害内容。 错误的请求和响应会被阻止,并向用户返回默认消息。 请参阅如何在模型服务端点配置护栏

重要

AI 护栏仅适用于支持基础模型 API 按令牌付费的区域

下表汇总了可配置的护栏。 请参阅限制

护栏 定义
安全筛选 安全筛选可防止模型与不安全且有害的内容(如暴力犯罪、自残和仇恨言论)进行交互。

AI 网关安全筛选器使用 Meta Llama 3 构建。 Databricks 使用 Llama Guard 2-8b 作为安全筛选器。 若要详细了解 Llama Guard 安全筛选器以及安全筛选器适用的主题,请参阅 Meta Llama Guard 2 8B 模型卡

Meta Llama 3 根据 LLAMA 3 社区许可授权,版权所有 © Meta Platforms, Inc.保留所有权利。 客户需负责确保遵守适用的模型许可条款。
个人身份信息 (PII) 检测 客户可以检测任何敏感信息,例如用户的姓名、地址、信用卡号。

对于此功能,AI 网关使用 Presidio 来检测以下美国类别的 PII:信用卡号码、电子邮件地址、电话号码、银行帐号和社会保障号码。

PII 分类器可帮助识别结构化和非结构化数据中的敏感信息或 PII。 但是,由于使用的是自动检测机制,因此不能保证该服务一定能找到所有敏感信息。 因此,应采用其他系统和保护措施。

这些分类方法主要适用于美国 PII 类别,例如美国电话号码和社会安全号码。
主题审查 列出一组允许的主题的功能。 给定聊天请求后,如果请求的主题不在允许的主题范围内,则此护栏会标记该请求。
关键字筛选 客户可以为输入与输出指定不同的无效关键字集。 关键字筛选的一个潜在用例是让模型不谈论竞争对手。

此护栏使用关键字或字符串匹配来确定关键字是否存在于请求或响应内容中。

使用 AI 网关

可使用服务 UI 在模型服务端点上配置 AI 网关功能。 请参阅在模型服务端点上配置 AI 网关

限制

预览期间的限制如下:

  • AI 网关仅支持用于:
  • 使用 AI 防护措施时,请求批大小(即嵌入批大小、完成批大小或聊天请求 n 参数)不能超过 16 个。
  • 对于预配吞吐量工作负载,支持的功能仅限于使用启用了 AI 网关的推理表进行速率限制和有效负载日志记录。
  • 请参阅已启用 AI 网关的推理表限制
  • 如果使用 函数调用 并指定 AI 防护措施,则这些防护措施不适用于函数的请求和中间响应。 但是,护栏将应用于最终输出响应。