你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
缓存对 Azure OpenAI API 请求的响应
适用于:所有 API 管理层级
azure-openai-semantic-cache-store
策略会将对 Azure OpenAI Chat Completion API 和 Completion API 请求的响应缓存到配置的外部缓存中。 响应缓存可以降低后端 Azure OpenAI API 需要满足的带宽和处理能力要求,并可以减小 API 使用者能够察觉到的延迟。
注意
- 此策略必须有相应的获取 Azure OpenAI API 请求的缓存响应策略。
- 有关启用语义缓存的先决条件和步骤,请参阅在 Azure API 管理中为 Azure OpenAI API 启用语义缓存。
- 此策略目前为预览版。
注意
按照策略声明中提供的顺序设置策略的元素和子元素。 详细了解如何设置或编辑 API 管理策略。
受支持的 Azure OpenAI 服务模型
策略与从以下类型的 Azure OpenAI 服务添加到 API 管理的 API 结合使用:
API 类型 | 支持的模型 |
---|---|
聊天补全 | gpt-3.5 gpt-4 |
Completion | gpt-3.5-turbo-instruct |
嵌入 | text-embedding-3-large text-embedding-3-small text-embedding-ada-002 |
有关更多信息,请参阅 Azure OpenAI 服务模型。
策略语句
<azure-openai-semantic-cache-store duration="seconds"/>
属性
属性 | 说明 | 需要 | 默认 |
---|---|---|---|
duration | 缓存条目的生存时间,以秒为单位指定。 允许使用策略表达式。 | 是 | 空值 |
使用情况
使用注意事项
- 此策略只能在策略部分中使用一次。
- 如果缓存查找失败,则使用缓存相关操作的 API 调用不会引发错误,并且缓存操作成功完成。
示例
相应的 azure-openai-semantic-cache-lookup 策略的示例
<policies>
<inbound>
<base />
<azure-openai-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="azure-openai-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</azure-openai-semantic-cache-lookup>
</inbound>
<outbound>
<azure-openai-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
相关策略
相关内容
有关使用策略的详细信息,请参阅:
- 教程:转换和保护 API
- 策略参考,其中提供了策略语句及其设置的完整列表
- 策略表达式
- 设置或编辑策略
- 重复使用策略配置
- 策略片段存储库
- Azure API 管理策略工具包
- 使用 Azure 中的 Microsoft Copilot 创作策略