你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure OpenAI 服务配额和限制

项目
01/30/2025

本文将介绍一个快速参考，并详细说明了 Azure AI 服务中 Azure OpenAI 的配额和限制。

配额和限制参考

以下部分提供适用于 Azure OpenAI 默认配额和限制的快速指南：

限制名称	限制值
每个 Azure 订阅每个区域的 Azure OpenAI 资源	30
默认 DALL-E 2 配额限制	2 个并发请求
默认 DALL-E 3 配额限制	2 个容量单位（每分钟 6 个请求）
默认 Whisper 配额限制	每分钟 3 个请求
每个请求的最大提示令牌数	每个模型不同。有关更多信息，请参阅 Azure OpenAI 服务模型
每个资源的最大标准部署数	32
最大微调模型部署	5
每个资源的训练作业总数	100
每个资源同时运行的最大训练作业数	1
排队的最大训练作业数	20
每个资源的最大文件数（优调）	50
每个资源的所有文件的总大小（优调）	1 GB
最大训练作业时间（如果超过，作业将失败）	720 小时
最大训练作业大小（训练文件中的标记数）×（时期数）	20 亿
每次上传的所有文件的最大大小（数据上的 Azure OpenAI）	16 MB
数组中具有 `/embeddings` 的最大输入数	2048
最大 `/chat/completions` 消息数	2048
最大 `/chat/completions` 函数数	128
最大 `/chat completions` 工具数	128
每个部署预配的吞吐量单位数上限	100,000
每个助手/线程的最大文件数	使用 API 或 Azure AI Foundry 门户时为 10,000。在 Azure OpenAI Studio 中，限制为 20。
助手和微调的最大文件大小	512 MB 通过 Azure AI Foundry 门户 200 MB
助手的所有上传文件的最大大小	100 GB
助手令牌限制	令牌限制 2,000,000
GPT-4o 每个请求的最大图像数（消息数组/对话历史记录中的图像数）	50
GPT-4 `vision-preview` 和 GPT-4 `turbo-2024-04-09` 默认最大令牌数	16 增加 `max_tokens` 参数值以避免响应被截断。 GPT-4o 最大令牌数默认为 4096。
API 请求中的最大自定义标头数¹	10
消息字符限制	1048576
音频文件的消息大小	20 MB

¹ 当前 API 最多允许 10 个自定义标头（通过管道传递并返回）。一些客户现在超过了此标头计数，从而导致 HTTP 431 错误。除了减少标头量之外，此错误没有其他解决方案。 在未来的 API 版本中，我们将不再传递自定义标头。我们不建议客户在未来的系统体系结构中依赖自定义标头。

区域配额限值

区域	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Instruct	o1-mini - GlobalStandard	o1 - GlobalStandard	gpt-4o - GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o - Global-Batch	GPT-4o-mini - Global-Batch	GPT-4 - Global-Batch	GPT-4-Turbo - Global-Batch	gpt-35-turbo - Global-Batch	Text-Embedding-Ada-002	text-embedding-3-small	text-embedding-3-large	GPT-4o - 微调	GPT-4o-mini - finetune	GPT-4 - finetune	Babbage-002	Babbage-002 - 微调	Davinci-002	Davinci-002 - 微调	GPT-35-Turbo - 微调	GPT-35-Turbo-1106 - 微调	GPT-35-Turbo-0125 - 微调
australiaeast	-	-	40,000	80,000	80,000	30 K	-	-	300,000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350,000	-	-	-	-	-	-	-	-	-	-	-	-
巴西南部	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350,000	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40,000	80,000	80,000	-	-	-	300,000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350,000	350,000	350,000	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80,000	-	1 M	2 M	240,000	240,000	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	240,000	350,000	350,000	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80,000	-	1 M	2 M	300,000	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350,000	350,000	350,000	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20000	60 K	80,000	-	-	-	240,000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240,000	-	350,000	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
日本东部	-	-	-	-	-	30 K	-	-	300,000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350,000	350,000	350,000	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80,000	-	1 M	2 M	300,000	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350,000	-	-	250 K	500 K	10 万	240,000	250 K	240,000	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350,000	-	350,000	-	-	-	-	-	-	-	-	-	-
polandcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350,000	-	-	-	-	-	-	-	-	-	-	-	-
southcentralus	1 M	600 K	-	-	80,000	-	1 M	2 M	240,000	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240,000	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300,000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350,000	-	350,000	-	-	-	-	-	-	-	-	-	-
spaincentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
瑞典中部	1 M	600 K	40,000	80,000	150 K	30 K	1 M	2 M	300,000	240,000	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350,000	-	350,000	250 K	500 K	10 万	240,000	250 K	240,000	250 K	250 K	250 K	250 K
瑞士北部	-	-	40,000	80,000	-	30 K	-	-	300,000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350,000	-	-	-	-	-	-	-	-	-	-	-	-
switzerlandwest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80,000	-	-	-	240,000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350,000	-	350,000	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240,000	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240,000	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80,000	30 K	1 M	2 M	300,000	-	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350,000	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80,000	-	1 M	2 M	300,000	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350,000	-	350,000	-	-	-	-	-	-	-	-	-	-

Batch 限制

限制名称	限制值
每个资源的最大文件数	500
最大输入文件大小	200 MB
每个文件的最大请求数	100,000

批处理配额

该表展示了批处理配额限制。全局批处理的配额值以入队令牌表示。提交用于批处理的文件时，会计算文件中存在的令牌数。在批处理作业达到终端状态之前，这些令牌将计入总入队令牌限制。

全局批处理

型号	企业协议	默认	基于信用卡的每月订阅	MSDN 订阅	面向学生的 Azure 免费试用版
`gpt-4o`	5 B	200 M	50 M	90 K	空值
`gpt-4o-mini`	15 B	1 B	50 M	90 K	空值
`gpt-4-turbo`	300 M	80 M	40 M	90 K	空值
`gpt-4`	150 M	30 M	5 M	10 万	空值
`gpt-35-turbo`	10 B	1 B	100 M	2 M	50 万
`o3-mini`	15 B	1 B	50 M	90 K	空值

B = 十亿 | M = 百万 | K = 千

数据区域批处理

型号	企业协议	默认	基于信用卡的每月订阅	MSDN 订阅	面向学生的 Azure 免费试用版
`gpt-4o`	500 M	30 M	30 M	90 K	空值
`gpt-4o-mini`	1.5 B	100 M	50 M	90 K	空值

`o-series` 速率限制

重要

与较旧的聊天完成模型相比，o1 系列模型的配额的 RPM/TPM 比率的工作原理不同：

较旧的聊天模型：1 个容量单位 = 6 RPM 和 1000 TPM。
o1 和 o1-preview：1 个容量单位 = 1 RPM 和 6,000 TPM。
o3-mini：1 单位容量 = 每 10000 TPM 1 RPM。
o1-mini：1 单位容量 = 每 10000 TPM 1 RPM。

对于编程模型部署来说，这一点尤其重要，因为 RPM/TPM 比率的这种更改可能会导致在分配配额时发生意外（如果仍假设 1：1000 比率后跟较旧的聊天完成模型）。

当假设旧比率适用于新的 o1 系列模型时，配额/使用情况 API 存在一个已知问题。 API 返回了正确的基准容量数字，但未应用正确的比率来准确计算 TPM。

`o-series` 全球标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`o3-mini`	企业协议	50 M	5 K
`o1` & `o1-preview`	企业协议	30 M	5 K
`o1-mini`	企业协议	50 M	5 K
`o3-mini`	Default	5 M	500
`o1` 和 `o1-preview`	Default	3 M	500
`o1-mini`	默认	5 M	500

o1-preview 和 o1-mini 标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`o1-preview`	企业协议	600 K	100
`o1-mini`	企业协议	1 M	100
`o1-preview`	默认	300,000	50
`o1-mini`	默认	500 K	50

gpt-4o 与 GPT-4 Turbo 的速率限制

gpt-4o 和 gpt-4o-mini，以及 gpt-4 (turbo-2024-04-09) 提供对某些客户类型限制更高的速率限制层。

gpt-4o 与 GPT-4 Turbo 的全球标准

模型	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4o`	企业协议	30 M	180 K
`gpt-4o-mini`	企业协议	50 M	300,000
`gpt-4` (turbo-2024-04-09)	企业协议	2 M	12,000
`gpt-4o`	默认	450 K	2.7 K
`gpt-4o-mini`	默认	2 M	12,000
`gpt-4` (turbo-2024-04-09)	默认	450 K	2.7 K

M = 百万 | K = 千

gpt-4o 数据区域标准

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4o`	企业协议	10 M	60 K
`gpt-4o-mini`	企业协议	2 千万	120,000
`gpt-4o`	默认	300,000	1.8 K
`gpt-4o-mini`	默认	1 M	6K

M = 百万 | K = 千

gpt-4o 标准

模型	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4o`	企业协议	1 M	6K
`gpt-4o-mini`	企业协议	2 M	12,000
`gpt-4o`	默认	150 K	900
`gpt-4o-mini`	默认	450 K	2.7 K

M = 百万 | K = 千

gpt-4o 音频

每个 gpt-4o 音频模型部署的速率限制为 100K TPM 和 1K RPM。在预览期间，Azure AI Foundry 门户和 API 可能会不准确地显示不同的速率限制。即使你尝试设置其他速率限制，实际速率限制也将是 100K TPM 和 1K RPM。

型号	层	每分钟令牌的配额限制 (TPM)	每分钟请求数
`gpt-4o-audio-preview`	Default	450 K	1 K
`gpt-4o-realtime-preview`	Default	800 K	1 K
`gpt-4o-mini-audio-preview`	Default	2 M	1 K
`gpt-4o-mini-realtime-preview`	Default	800 K	1 K

M = 百万 | K = 千

使用层

全球标准部署使用 Azure 的全球基础结构，将客户流量动态路由到可用性最好的数据中心，以满足客户的推理请求。同样，数据区域标准部署允许利用 Azure 全球基础结构将流量动态路由到 Microsoft 定义的数据区域中的数据中心，并为每个请求提供最佳可用性。这样，对于流量低到中等级别的客户，这可实现更一致的延迟。持续高使用量级别的客户可能会发现响应延迟的可变性更大。

使用限制决定了使用水平，超过该水平客户可能会看到响应延迟的可变性更高。客户使用情况按模型定义，是给定租户在所有区域的所有订阅中的所有部署中消耗的总令牌。

注意

使用层仅适用于标准、数据区域标准和全球标准部署类型。使用层不适用于全局批处理和预配的吞吐量部署。

GPT-4o 全球标准、数据区域标准和标准

型号	每月使用情况层级
`gpt-4o`	120 亿个令牌
`gpt-4o-mini`	850 亿个令牌

GPT-4 标准

模型	每月使用情况层级
`gpt-4` + `gpt-4-32k`（所有版本）	60 亿

其他套餐类型

如果 Azure 订阅链接到某些套餐类型，则最大配额值低于上述表中指示的值。

层	每分钟令牌的配额限制 (TPM)
面向学生的 Azure 免费试用版	1 K（所有模型）
MSDN 订阅	GPT 3.5 Turbo Series：30 K GPT-4 系列：8 K
基于信用卡的每月订阅 ¹	GPT 3.5 Turbo Series：30 K GPT-4 系列：8 K

¹ 这目前适用于套餐类型 0003P

在 Azure 门户中，可以通过导航到订阅并查看订阅概述窗格来查看与订阅关联的套餐类型。套餐类型对应于订阅概述中的计划字段。

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题，可以遵循以下方法：

在应用程序中实现重试逻辑
避免工作负载的急剧变化。逐步增大工作负载。
测试不同负载增加模式。
增加分配给部署的配额。如有必要，从另一个部署中移动配额。

如何请求增加配额

可以通过配额增加请求表单提交配额增加请求。由于需求较高，配额提高请求正在接受中，将按接收顺序处理。将优先考虑生成消耗现有配额分配的流量的客户。如果不满足此条件，你的请求可能会被拒绝。

对于其他速率限制，请提交服务请求。

后续步骤

探索如何管理 Azure OpenAI 部署的配额。详细了解为 Azure OpenAI 提供支持的基础模型。

通过

Azure OpenAI 服务配额和限制

配额和限制参考

区域配额限值

Batch 限制

批处理配额

全局批处理

数据区域批处理

`o-series` 速率限制

`o-series` 全球标准

o1-preview 和 o1-mini 标准

gpt-4o 与 GPT-4 Turbo 的速率限制

gpt-4o 与 GPT-4 Turbo 的全球标准

gpt-4o 数据区域标准

gpt-4o 标准

gpt-4o 音频

使用层

GPT-4o 全球标准、数据区域标准和标准

GPT-4 标准

其他套餐类型

保持在速率限制范围内的一般最佳做法

如何请求增加配额

后续步骤

反馈

其他资源

通过

Azure OpenAI 服务配额和限制

配额和限制参考

区域配额限值

Batch 限制

批处理配额

全局批处理

数据区域批处理

o-series 速率限制

o-series 全球标准

o1-preview 和 o1-mini 标准

gpt-4o 与 GPT-4 Turbo 的速率限制

gpt-4o 与 GPT-4 Turbo 的全球标准

gpt-4o 数据区域标准

gpt-4o 标准

gpt-4o 音频

使用层

GPT-4o 全球标准、数据区域标准和标准

GPT-4 标准

其他套餐类型

保持在速率限制范围内的一般最佳做法

如何请求增加配额

后续步骤

反馈

其他资源

`o-series` 速率限制

`o-series` 全球标准