你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure AI 服务中的 Azure AI 模型推理配额和限制
本文将介绍一个快速参考,并详细说明了 Azure AI 服务中 Azure AI 模型推理的配额和限制。 有关特定于 Azure OpenAI 服务的配额和限制,请参阅 Azure OpenAI 服务中的配额和限制。
配额和限制参考
以下部分提供在 Azure AI 服务中适用于 Azure AI 模型推理服务的默认配额和限制的快速指南:
资源限制
限制名称 | 限制值 |
---|---|
每个 Azure 订阅中每个区域的 Azure AI 服务资源 | 30 |
每个资源的最大部署数 | 32 |
速率限制
限制名称 | 限制值 |
---|---|
每分钟令牌数(Azure OpenAI 模型) | 因模型和 SKU 而异。 请参阅 Azure OpenAI 的限制。 |
每分钟令牌数(其余模型) | 200.000 |
每分钟请求数(Azure OpenAI 模型) | 因模型和 SKU 而异。 请参阅 Azure OpenAI 的限制。 |
每分钟请求数(其余模型) | 1.000 |
其他限制
限制名称 | 限制值 |
---|---|
API 请求中的最大自定义标头数1 | 10 |
1 当前 API 最多允许 10 个自定义标头(通过管道传递并返回)。 我们注意到一些客户现在超过了此标头计数,从而导致 HTTP 431 错误。 除了减少标头量之外,此错误没有其他解决方案。 在未来的 API 版本中,我们将不再传递自定义标头。 我们不建议客户在未来的系统体系结构中依赖自定义标头。
使用层
全球标准部署使用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。 这样,对于流量低到中等级别的客户,这可实现更一致的延迟。 持续使用率较高的客户可能会发现响应延迟的可变性更高。
使用限制决定了使用水平,超过该水平客户可能会看到响应延迟的可变性更高。 客户使用情况按模型定义,是给定租户在所有区域的所有订阅中的所有部署中消耗的总令牌。
保持在速率限制范围内的一般最佳做法
若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:
- 在应用程序中实现重试逻辑
- 避免工作负载的急剧变化。 逐步增大工作负载。
- 测试不同负载增加模式。
- 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。
请求提高默认配额和限制
可以按请求提交和评估配额提高请求。 提交服务请求。