你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI 服务中的 Azure AI 模型推理配额和限制

本文将介绍一个快速参考,并详细说明了 Azure AI 服务中 Azure AI 模型推理的配额和限制。 有关特定于 Azure OpenAI 服务的配额和限制,请参阅 Azure OpenAI 服务中的配额和限制

配额和限制参考

以下部分提供在 Azure AI 服务中适用于 Azure AI 模型推理服务的默认配额和限制的快速指南:

资源限制

限制名称 限制值
每个 Azure 订阅中每个区域的 Azure AI 服务资源 30
每个资源的最大部署数 32

速率限制

限制名称 限制值
每分钟令牌数(Azure OpenAI 模型) 因模型和 SKU 而异。 请参阅 Azure OpenAI 的限制
每分钟令牌数(其余模型) 200.000
每分钟请求数(Azure OpenAI 模型) 因模型和 SKU 而异。 请参阅 Azure OpenAI 的限制
每分钟请求数(其余模型) 1.000

其他限制

限制名称 限制值
API 请求中的最大自定义标头数1 10

1 当前 API 最多允许 10 个自定义标头(通过管道传递并返回)。 我们注意到一些客户现在超过了此标头计数,从而导致 HTTP 431 错误。 除了减少标头量之外,此错误没有其他解决方案。 在未来的 API 版本中,我们将不再传递自定义标头。 我们不建议客户在未来的系统体系结构中依赖自定义标头。

使用层

全球标准部署使用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。 这样,对于流量低到中等级别的客户,这可实现更一致的延迟。 持续使用率较高的客户可能会发现响应延迟的可变性更高。

使用限制决定了使用水平,超过该水平客户可能会看到响应延迟的可变性更高。 客户使用情况按模型定义,是给定租户在所有区域的所有订阅中的所有部署中消耗的总令牌。

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:

  • 在应用程序中实现重试逻辑
  • 避免工作负载的急剧变化。 逐步增大工作负载。
  • 测试不同负载增加模式。
  • 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。

请求提高默认配额和限制

可以按请求提交和评估配额提高请求。 提交服务请求

后续步骤