你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure OpenAI 服务配额和限制

本文将介绍一个快速参考,并详细说明了 Azure AI 服务中 Azure OpenAI 的配额和限制。

配额和限制参考

以下部分提供适用于 Azure OpenAI 默认配额和限制的快速指南:

限制名称 限制值
每个 Azure 订阅中每个区域的 OpenAI 资源 30
默认 DALL-E 2 配额限制 2 个并发请求
默认 DALL-E 3 配额限制 2 个容量单位(每分钟 6 个请求)
默认 Whisper 配额限制 每分钟 3 个请求
每个请求的最大提示令牌数 每个模型不同。 有关更多信息,请参阅 Azure OpenAI 服务模型
每个资源的最大标准部署数 32
最大微调模型部署 5
每个资源的训练作业总数 100
每个资源同时运行的最大训练作业数 1
排队的最大训练作业数 20
每个资源的最大文件数(优调) 50
每个资源的所有文件的总大小(优调) 1 GB
最大训练作业时间(如果超过,作业将失败) 720 小时
最大训练作业大小(训练文件中的标记数)×(时期数) 20 亿
每次上传的所有文件的最大大小(数据上的 Azure OpenAI) 16 MB
数组中具有 /embeddings 的最大输入数 2048
最大 /chat/completions 消息数 2048
最大 /chat/completions 函数数 128
最大 /chat completions 工具数 128
每个部署预配的吞吐量单位数上限 100,000
每个助手/线程的最大文件数 使用 API 或 AI Studio 时为 10,000。 使用 Azure OpenAI Studio 时为 20。
助手和微调的最大文件大小 512 MB
助手的所有上传文件的最大大小 100 GB
助手令牌限制 令牌限制 2,000,000
GPT-4o 每个请求的最大图像数(消息数组/对话历史记录中的图像数) 10
GPT-4 vision-preview 和 GPT-4 turbo-2024-04-09 默认最大令牌数 16

增加 max_tokens 参数值以避免响应被截断。 GPT-4o 最大令牌数默认为 4096。
API 请求中的最大自定义标头数1 10
每分钟的最大请求数

实时音频 (gpt-4o-realtime-preview) 的当前速率限制定义为每分钟的新 Websocket 连接数。 例如,每分钟 6 个请求 (RPM) 表示每分钟 6 个新连接。 目前,针对 gpt-4o-realtime-preview 的使用限制适用于测试和开发。
每分钟 6 个新连接

1 当前 API 最多允许 10 个自定义标头(通过管道传递并返回)。 一些客户现在超过了此标头计数,从而导致 HTTP 431 错误。 除了减少标头量之外,此错误没有其他解决方案。 在未来的 API 版本中,我们将不再传递自定义标头。 我们不建议客户在未来的系统体系结构中依赖自定义标头。

区域配额限值

区域 o1-mini o1 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V gpt-4o gpt-4o-mini GPT-35-Turbo GPT-35-Turbo-Instruct o1-mini - GlobalStandard o1 - GlobalStandard gpt-4o - GlobalStandard gpt-4o-mini - GlobalStandard GPT-4-Turbo - GlobalStandard GPT-4o - Global-Batch GPT-4o-mini - Global-Batch GPT-4 - Global-Batch GPT-4-Turbo - Global-Batch gpt-35-turbo - Global-Batch Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large GPT-4o - 微调 GPT-4o-mini - finetune GPT-4 - finetune Babbage-002 Babbage-002 - 微调 Davinci-002 Davinci-002 - 微调 GPT-35-Turbo - 微调 GPT-35-Turbo-1106 - 微调 GPT-35-Turbo-0125 - 微调
australiaeast - - 40,000 80,000 80,000 30 K - - 300,000 - - - 30 M 50 M 2 M - - - - - 350,000 - - - - - - - - - - - -
巴西南部 - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350,000 - - - - - - - - - - - -
canadaeast - - 40,000 80,000 80,000 - - - 300,000 - - - 30 M 50 M 2 M - - - - - 350,000 350,000 350,000 - - - - - - - - - -
eastus 1 M 600 K - - 80,000 - 1 M 2 M 240,000 240,000 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 240,000 350,000 350,000 - - - - - - - - - -
eastus2 1 M 600 K - - 80,000 - 1 M 2 M 300,000 - 50 M 30 M 30 M 50 M 2 M - - - - - 350,000 350,000 350,000 250 K - - - - - - 250 K 250 K 250 K
francecentral - - 20000 60 K 80,000 - - - 240,000 - - - 30 M 50 M 2 M - - - - - 240,000 - 350,000 - - - - - - - - - -
germanywestcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
日本东部 - - - - - 30 K - - 300,000 - - - 30 M 50 M 2 M - - - - - 350,000 350,000 350,000 - - - - - - - - - -
koreacentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
northcentralus 1 M 600 K - - 80,000 - 1 M 2 M 300,000 - 50 M 30 M 30 M 50 M 2 M - - - - - 350,000 - - 250 K 500 K 10 万 240,000 250 K 240,000 250 K 250 K 250 K 250 K
norwayeast - - - - 150 K - - - - - - - 30 M 50 M 2 M - - - - - 350,000 - 350,000 - - - - - - - - - -
polandcentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
southafricanorth - - - - - - - - - - - - 30 M 50 M 2 M - - - - - 350,000 - - - - - - - - - - - -
southcentralus 1 M 600 K - - 80,000 - 1 M 2 M 240,000 - 50 M 30 M 30 M 50 M 2 M - - - - - 240,000 - - - - - - - - - - - -
southindia - - - - 150 K - - - 300,000 - - - 30 M 50 M 2 M - - - - - 350,000 - 350,000 - - - - - - - - - -
spaincentral - - - - - - - - - - - - 30 M 50 M 2 M - - - - - - - - - - - - - - - - - -
瑞典中部 1 M 600 K 40,000 80,000 150 K 30 K 1 M 2 M 300,000 240,000 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350,000 - 350,000 250 K 500 K 10 万 240,000 250 K 240,000 250 K 250 K 250 K 250 K
瑞士北部 - - 40,000 80,000 - 30 K - - 300,000 - - - 30 M 50 M 2 M - - - - - 350,000 - - - - - - - - - - - -
switzerlandwest - - - - - - - - - - - - - - - - - - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - - - 80,000 - - - 240,000 - - - 30 M 50 M 2 M - - - - - 350,000 - 350,000 - - - - - - - - - -
westeurope - - - - - - - - 240,000 - - - 30 M 50 M 2 M - - - - - 240,000 - - - - - - - - - - - -
westus 1 M 600 K - - 80,000 30 K 1 M 2 M 300,000 - 50 M 30 M 30 M 50 M 2 M 5 B 15 B 150 M 300 M 10 B 350,000 - - - - - - - - - - - -
westus3 1 M 600 K - - 80,000 - 1 M 2 M 300,000 - 50 M 30 M 30 M 50 M 2 M - - - - - 350,000 - 350,000 - - - - - - - - - -

全局批处理限制

限制名称 限制值
每个资源的最大文件数 500
最大输入文件大小 200 MB
每个文件的最大请求数 100,000

全局批处理配额

该表展示了批处理配额限制。 全局批处理的配额值以入队令牌表示。 提交用于批处理的文件时,会计算文件中存在的令牌数。 在批处理作业达到终端状态之前,这些令牌将计入总入队令牌限制。

模型 企业协议 默认 基于信用卡的每月订阅 MSDN 订阅 面向学生的 Azure 免费试用版
gpt-4o 5 B 200 M 50 M 90 K 空值
gpt-4o-mini 15 B 1 B 50 M 90 K 空值
gpt-4-turbo 300 M 80 M 40 M 90 K 空值
gpt-4 150 M 30 M 5 M 10 万 空值
gpt-35-turbo 10 B 1 B 100 M 2 M 50 万

B = 十亿 | M = 百万 | K = 千

o1-preview 和 o1-mini 速率限制

重要

与较旧的聊天完成模型相比,o1 系列模型的配额的 RPM/TPM 比率的工作原理不同:

  • 较旧的聊天模型:1 个容量单位 = 6 RPM 和 1000 TPM。
  • o1 预览版:1 个容量单位 = 1 RPM 和 6000 TPM。
  • o1-mini:1 单位容量 = 每 10000 TPM 1 RPM。

对于编程模型部署来说,这一点尤其重要,因为 RPM/TPM 比率的这种更改可能会导致在分配配额时发生意外(如果仍假设 1:1000 比率后跟较旧的聊天完成模型)。

当假设旧比率适用于新的 o1 系列模型时,配额/使用情况 API 存在一个已知问题。 API 返回正确的基准量数,但未对 TPM 的准确计算应用正确的比率。

o1-preview 和 o1-mini 全球标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
o1-preview 企业协议 30 M 5 K
o1-mini 企业协议 50 M 5 K
o1-preview 默认 3 M 500
o1-mini 默认 5 M 500

o1-preview 和 o1-mini 标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
o1-preview 企业协议 600 K 100
o1-mini 企业协议 1 M 100
o1-preview 默认 300,000 50
o1-mini 默认 500 K 50

gpt-4o 与 GPT-4 Turbo 的速率限制

gpt-4ogpt-4o-mini,以及 gpt-4 (turbo-2024-04-09) 提供对某些客户类型限制更高的速率限制层。

gpt-4o 与 GPT-4 Turbo 的全球标准

模型 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4o 企业协议 30 M 180 K
gpt-4o-mini 企业协议 50 M 300,000
gpt-4 (turbo-2024-04-09) 企业协议 2 M 12,000
gpt-4o 默认 450 K 2.7 K
gpt-4o-mini 默认 2 M 12,000
gpt-4 (turbo-2024-04-09) 默认 450 K 2.7 K

M = 百万 | K = 千

gpt-4o 数据区域标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4o 企业协议 10 M 60 K
gpt-4o-mini 企业协议 2 千万 120,000
gpt-4o 默认 300,000 1.8 K
gpt-4o-mini 默认 1 M 6K

M = 百万 | K = 千

gpt-4o 标准

模型 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4o 企业协议 1 M 6K
gpt-4o-mini 企业协议 2 M 12,000
gpt-4o 默认 150 K 900
gpt-4o-mini 默认 450 K 2.7 K

M = 百万 | K = 千

使用层

全球标准部署使用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。 同样,数据区域标准部署允许利用 Azure 全球基础结构将流量动态路由到 Microsoft 定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 这样,对于流量低到中等级别的客户,这可实现更一致的延迟。 持续使用率较高的客户可能会发现响应延迟的可变性更高。

使用限制决定了使用水平,超过该水平客户可能会看到响应延迟的可变性更高。 客户使用情况按模型定义,是给定租户在所有区域的所有订阅中的所有部署中消耗的总令牌。

注意

使用层仅适用于标准、数据区域标准和全球标准部署类型。 使用层不适用于全局批处理和预配的吞吐量部署。

GPT-4o 全球标准、数据区域标准和标准

型号 每月使用情况层级
gpt-4o 120 亿个令牌
gpt-4o-mini 850 亿个令牌

GPT-4 标准

模型 每月使用情况层级
gpt-4 + gpt-4-32k(所有版本) 60 亿

其他套餐类型

如果 Azure 订阅链接到某些套餐类型,则最大配额值低于上述表中指示的值。

每分钟令牌的配额限制 (TPM)
面向学生的 Azure 免费试用版 1 K(所有模型)
MSDN 订阅 GPT 3.5 Turbo Series:30 K
GPT-4 系列:8 K
基于信用卡的每月订阅 1 GPT 3.5 Turbo Series:30 K
GPT-4 系列:8 K

1 这目前适用于套餐类型 0003P

在 Azure 门户中,可以通过导航到订阅并查看订阅概述窗格来查看与订阅关联的套餐类型。 套餐类型对应于订阅概述中的计划字段。

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:

  • 在应用程序中实现重试逻辑
  • 避免工作负载的急剧变化。 逐步增大工作负载。
  • 测试不同负载增加模式。
  • 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。

如何请求增加默认配额和限制

配额增加请求可以从 Azure AI Studio 的“配额”页面提交。 由于需求较高,配额提高请求正在接受中,将按接收顺序处理。 将优先考虑生成消耗现有配额分配的流量的客户。如果不满足此条件,你的请求可能会被拒绝。

对于其他速率限制,请提交服务请求

后续步骤

探索如何管理 Azure OpenAI 部署的配额。 详细了解为 Azure OpenAI 提供支持的基础模型