你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

管理 Azure OpenAI 服务配额

项目
11/11/2024

配额使你可以灵活、主动地管理订阅中不同部署的速率上限的分配。本文逐步讲解管理 Azure OpenAI 配额的过程。

先决条件

重要

对于需要查看可用配额的任何任务，我们建议使用认知服务使用情况读取者角色。此角色提供查看 Azure 订阅中的配额使用情况所需的最小访问权限。若要详细了解此角色以及访问 Azure OpenAI 所需的其他角色，请参阅 Azure 基于角色的访问 (Azure RBAC) 指南。

可以在 Azure 门户中的“订阅”>“访问控制(IAM)”>“添加角色分配”>“搜索认知服务使用情况读取者”下找到此角色。此角色必须在订阅级别应用，它在资源级别不存在。

如果不希望使用此角色，可以使用订阅“读取者”角色，该角色会提供等效的访问权限，但也会授予读取访问权限，该读取访问权限超出查看配额和模型部署所需的访问权限的范围。

配额简介

Azure OpenAI 的配额功能允许为部署分配速率上限，最多可达到全局上限，即所谓的“配额”。配额按区域、模型分配给你的订阅，单位为每分钟标记数 (TPM)。将订阅加入 Azure OpenAI 时，你将收到大多数可用模型的默认配额。然后，你在创建每个部署时将 TPM 分配给它们，模型的可用配额将随之减少该数量。你可以继续创建部署并为其分配 TPM，直到达到配额上限。一旦达到上限，只能通过减少分配给同一模型的其他部署的 TPM（从而释放可用的 TPM）来创建新部署，或者请求在所需区域中增加模型配额并获得批准。

注意

对于美国东部、配额为 240,000 TPM 的 GPT-35-Turbo，客户可以创建一个 240K TPM 的部署、每个 120K TPM 的两个部署，或者一个或多个 Azure OpenAI 资源中的任意数量的部署，只要它们在该区域中 TPM 总计少于 240K。

创建部署时，分配的 TPM 将直接映射到对其推理请求强制执行的每分钟标记数的速率上限。还将强制实施每分钟请求数 (RPM) 速率上限，其值使用以下比率按比例设置为 TPM 分配：

每 1000 TPM 为 6 RPM。

在订阅和区域内全局分配 TPM 的灵活性使 Azure OpenAI 服务能够放宽其他限制：

每个区域的最大资源数增加到 30。
移除了在一个资源中只能为同一模型创建一个部署的限制。

分配配额

创建模型部署时，可以选择将每分钟标记数 (TPM) 分配给该部署。 TPM 可以按 1,000 为增量进行修改，它会映射到部署中强制执行的 TPM 和 RPM 速率上限，如上所述。

要从 Azure AI Studio 中创建一个新部署，请选择“部署”>“部署模型”>“部署基础模型”>“选择模型”>“确认”。。

部署后，可以通过从 Azure AI Studio 中的“部署页”选择和编辑模型来调整 TPM 分配。还可以从“管理”>“模型配额”页修改此设置。

重要

配额和上限可能会更改，为获取最新信息，请参阅配额和上限一文。

特定于模型的设置

不同的模型部署（也称为模型类）具有你现在可以控制的唯一最大 TPM 值。这表示给定区域中可分配给该类型的模型部署的最大 TPM 量。

所有其他模型类都有通用的最大 TPM 值。

注意

配额“每分钟标记数 (TPM)”的分配与模型的最大输入标记上限无关。模型输入标记限制在模型表中定义，不受对 TPM 所做的更改的影响。

查看和请求配额

对于给定区域中跨部署的配额分配的全视图，请选择 Azure AI Studio 中的“管理”>“配额”：

部署：按模型类划分的模型部署。
配额类型：每个模型类型在每个区域都有一个配额值。该配额涵盖该模型的所有版本。
配额分配：对于配额名称，它会显示部署使用的配额量以及此订阅和区域已获得批准的总配额。此使用的配额量也显示在条形图中。
请求配额：此字段中的图标可导航到可以提交增加配额请求的表单。

迁移现有部署

在过渡到新的配额系统和基于 TPM 的分配方式的过程中，所有现有的 Azure OpenAI 模型部署都已自动迁移为使用配额。如果由于以前的自定义速率上限增加，现有 TPM/RPM 分配超出了默认值，则会将等效的 TPM 分配给受影响的部署。

了解速率上限

将 TPM 分配给部署后，将为部署设置每分钟标记数 (TPM) 和每分钟请求数 (RPM) 的速率上限，如上所述。 TPM 速率上限基于在收到请求时，请求估计可处理的最大标记数。它与用于计费的标记数不同，后者是在完成所有处理后计算的。

收到每个请求时，Azure OpenAI 会计算估计的最大标记处理数，其中包括：

提示文本和计数
max_tokens 参数设置
best_of 参数设置

当请求进入部署终结点时，估计的最大标记处理数将添加到每分钟重置的所有请求的运行标记数。如果在该分钟内的任何时间点达到了 TPM 速率上限值，则后续的请求将收到 429 响应代码，直到计数器重置。

重要

速率限制计算中使用的令牌计数是一个部分基于 API 请求的字符计数的估算值。速率限制令牌估算与用于计费/确定请求是否低于模型的输入令牌限制的令牌计算不同。考虑到速率限制令牌计算的近似性质，与每个请求的精确令牌计数度量相比，正常情况下速率限制可以在预期之前触发。

RPM 速率上限基于一段时间内收到的请求数。速率上限要求请求在一分钟的时间内均匀分布。如果无法维持此平均流量，那么即使在一分钟的时间内没有达到上限，请求也可能会收到 429 响应。为了实现此行为，Azure OpenAI 服务会在一小段时间内（通常为 1 或 10 秒）评估传入请求的速率。如果在此期间收到的请求数超出了设置的 RPM 上限的预期，则新请求将收到 429 响应代码，直到下一个评估期。例如，如果 Azure OpenAI 按 1 秒的间隔监视请求速率，则在 600 RPM 的部署中，如果在每 1 秒期间收到 10 个以上的请求，则会达到速率上限（每分钟 600 个请求 = 每秒 10 个请求）。

速率上限最佳做法

若要最大程度地减少与速率上限相关的问题，可以遵循以下方法：

将 max_tokens 和 best_of 设置为满足方案需求的最小值。例如，如果预计你的响应较小，请勿设置较大的 max-tokens 值。
通过配额管理来增加高流量部署的 TPM，并减少需求有限的部署的 TPM。
在应用程序中实现重试逻辑
避免工作负载的急剧变化。逐步增大工作负载。
测试不同负载增加模式。

自动进行部署

本部分包含简短的示例模板，可帮助你开始以编程方式创建那些使用配额设置 TPM 速率限制的部署。引入配额后，必须使用 API 版本 2023-05-01 进行与资源管理相关的活动。此 API 版本仅用于管理资源，不会影响用于补全、聊天补全、嵌入、图像生成等推理调用的 API 版本。

部署

PUT https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-05-01

路径参数

参数	类型	必需？	说明
`accountName`	字符串	必需	Azure OpenAI 资源的名称。
`deploymentName`	字符串	必需	你在部署现有模型时选择的部署名称，或者你希望新模型部署具有的名称。
`resourceGroupName`	字符串	必需	此模型部署的关联资源组的名称。
`subscriptionId`	字符串	必需	关联订阅的订阅 ID。
`api-version`	字符串	必需	要用于此操作的 API 版本。它遵循 YYYY-MM-DD 格式。

支持的版本

2023-05-01 Swagger 规范

请求正文

这只是可用的请求正文参数的一个子集。如需参数的完整列表，可以参考 REST API 参考文档。

参数	类型	描述
sku	Sku	表示 SKU 的资源模型定义。
容量	整型	这表示你要分配给此部署的配额量。值为 1 相当于每分钟 1000 个标记 (TPM)。值为 10 相当于每分钟 10000 个标记 (TPM)。

示例请求

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/gpt-35-turbo-test-deployment?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"Standard","capacity":10},"properties": {"model": {"format": "OpenAI","name": "gpt-35-turbo","version": "0613"}}}'

注意

可通过多种方式生成授权令牌。初始测试的最简单方法是从 Azure 门户启动 Cloud Shell。然后运行 az account get-access-token。可以将此令牌用作 API 测试的临时授权令牌。

有关详细信息，请参阅 REST API 参考文档，了解使用情况和部署。

使用情况

查询特定订阅在给定区域中的配额使用情况

GET https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/locations/{location}/usages?api-version=2023-05-01

路径参数

参数	类型	必需？	说明
`subscriptionId`	字符串	必需	关联订阅的订阅 ID。
`location`	字符串	必须	可查看使用情况的位置，例如 `eastus`
`api-version`	string	必需	要用于此操作的 API 版本。它遵循 YYYY-MM-DD 格式。

支持的版本

2023-05-01 Swagger 规范

示例请求

curl -X GET https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/locations/eastus/usages?api-version=2023-05-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN'

安装 Azure CLI。配额需要 Azure CLI version 2.51.0。如果已在本地安装 Azure CLI，请运行 az upgrade 来更新到最新版本。

若要检查正在运行的 Azure CLI 的版本，请使用 az version。 Azure Cloud Shell 当前仍在运行 2.50.0，因此在过渡期间需要在本地安装 Azure CLI 才能利用最新的 Azure OpenAI 功能。

部署

az cognitiveservices account deployment create --model-format
                                               --model-name
                                               --model-version
                                               --name
                                               --resource-group
                                               [--capacity]
                                               [--deployment-name]
                                               [--scale-capacity]
                                               [--scale-settings-scale-type {Manual, Standard}]
                                               [--sku]

若要登录到本地安装的 CLI，请运行 az login 命令：

az login

通过在下面的命令中将 sku-capacity 设置为 10，可以为此部署设置一个 10000 的 TPM 限制。

az cognitiveservices account deployment create -g test-resource-group -n test-resource-name --deployment-name test-deployment-name --model-name gpt-35-turbo --model-version "0613" --model-format OpenAI --sku-capacity 10 --sku-name "Standard"

使用情况

查询特定订阅在给定区域中的配额使用情况

az cognitiveservices usage list --location

示例

az cognitiveservices usage list -l eastus

此命令在 Azure CLI 的当前有效订阅的上下文中运行。使用 az-account-set --subscription 来修改有效订阅。

有关 az cognitiveservices account 和 az cognitivesservices usage 的更多详细信息，请参阅 Azure CLI 参考文档

安装最新版本的 Az PowerShell 模块。如果已在本地安装 Az PowerShell 模块，请运行 Update-Module -Name Az 以更新到最新版本。

若要检查正在运行的 Az PowerShell 模块的版本，请使用 Get-InstalledModule -Name Az。 Azure Cloud Shell 当前正在运行一个 Azure PowerShell 版本，该版本可以利用最新的 Azure OpenAI 功能。

部署

New-AzCognitiveServicesAccountDeployment
   [-ResourceGroupName] <String>
   [-AccountName] <String>
   [-Name] <String>
   [-Properties] <DeploymentProperties>
   [-Sku] <Sku>
   [-DefaultProfile <IAzureContextContainer>]
   [-WhatIf]
   [-Confirm]
   [<CommonParameters>]

若要登录到 Azure PowerShell 的本地安装，请运行 Connect-AzAccount 命令：

Connect-AzAccount

通过在下面的命令中将 SKU 容量设置为 10，可以为此部署设置一个 10K 的 TPM 限制。

$cognitiveServicesDeploymentParams = @{
    ResourceGroupName = 'test-resource-group'
    AccountName = 'test-resource-name'
    Name = 'test-deployment-name'
    Properties = @{
        Model = @{
            Name = 'gpt-35-turbo'
            Version = '0613'
            Format  = 'OpenAI'
        }
    }
    Sku = @{
        Name = 'Standard'
        Capacity = '10'
    }
}
New-AzCognitiveServicesAccountDeployment @cognitiveServicesDeploymentParams

使用情况

查询特定订阅在给定区域中的配额使用情况：

Get-AzCognitiveServicesUsage -Location <location>

示例

Get-AzCognitiveServicesUsage -Location eastus

此命令在 Azure PowerShell 的当前有效订阅的上下文中运行。使用 Set-AzContext 来修改有效订阅。

有关 New-AzCognitiveServicesAccountDeployment 和 Get-AzCognitiveServicesUsage 的更多详细信息，请参阅 Azure PowerShell 参考文档。

//
// This Azure Resource Manager template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
{
    "type": "Microsoft.CognitiveServices/accounts/deployments",
    "apiVersion": "2023-05-01",
    "name": "arm-je-aoai-test-resource/arm-je-std-deployment",    // Update reference to parent Azure OpenAI resource
    "dependsOn": [
        "[resourceId('Microsoft.CognitiveServices/accounts', 'arm-je-aoai-test-resource')]"  // Update reference to parent Azure OpenAI resource
    ],
    "sku": {
        "name": "Standard",      
        "capacity": 10            // The deployment will be created with a 10K TPM limit
    },
    "properties": {
        "model": {
            "format": "OpenAI",
            "name": "gpt-35-turbo",
            "version": "0613"        // Version 0613 of gpt-35-turbo will be used
        }
    }
}

有关更多详细信息，请参阅完整的 Azure 资源管理器参考文档。

//
// This Bicep template shows how to use the new schema introduced in the 2023-05-01 API version to 
// create deployments that set the model version and the TPM limits for standard deployments.
//
resource arm_je_std_deployment 'Microsoft.CognitiveServices/accounts/deployments@2023-05-01' = {
  parent: arm_je_aoai_resource   // Replace this with a reference to the parent Azure OpenAI resource
  name: 'arm-je-std-deployment'
  sku: {
    name: 'Standard'            
    capacity: 10                 // The deployment will be created with a 10K TPM limit
  }
  properties: {
    model: {
      format: 'OpenAI'
      name: 'gpt-35-turbo'
      version: '0613'           // gpt-35-turbo version 0613 will be used
    }
  }
}

有关更多详细信息，请参阅完整的 Bicep 参考文档。

# This Terraform template shows how to use the new schema introduced in the 2023-05-01 API version to 
# create deployments that set the model version and the TPM limits for standard deployments.
# 
# The new schema is not yet available in the AzureRM provider (target v4.0), so this template uses the AzAPI
# provider, which provides a Terraform-compatible interface to the underlying ARM structures.
# 
# For more details on these providers:
#     AzureRM: https://registry.terraform.io/providers/hashicorp/azurerm/latest/docs
#     AzAPI: https://registry.terraform.io/providers/azure/azapi/latest/docs
#

# 
terraform {
  required_providers {
    azapi   = { source  = "Azure/azapi" }
    azurerm = { source  = "hashicorp/azurerm" }
  }
}

provider "azapi" {
  # Insert auth info here as necessary
}

provider "azurerm" {
    # Insert auth info here as necessary  
    features {
    }
}

# 
# To create a complete example, AzureRM is used to create a new resource group and Azure OpenAI Resource
# 
resource "azurerm_resource_group" "TERRAFORM-AOAI-TEST-GROUP" {
  name     = "TERRAFORM-AOAI-TEST-GROUP"
  location = "canadaeast"
}

resource "azurerm_cognitive_account" "TERRAFORM-AOAI-TEST-ACCOUNT" {
  name                  = "terraform-aoai-test-account"
  location              = "canadaeast"
  resource_group_name   = azurerm_resource_group.TERRAFORM-AOAI-TEST-GROUP.name
  kind                  = "OpenAI"
  sku_name              = "S0"
  custom_subdomain_name = "terraform-test-account-"
  }


# 
# AzAPI is used to create the deployment so that the TPM limit and model versions can be set
#
resource "azapi_resource" "TERRAFORM-AOAI-STD-DEPLOYMENT" {
  type      = "Microsoft.CognitiveServices/accounts/deployments@2023-05-01"
  name      = "TERRAFORM-AOAI-STD-DEPLOYMENT"
  parent_id = azurerm_cognitive_account.TERRAFORM-AOAI-TEST-ACCOUNT.id

  body = jsonencode({
    sku = {                            # The sku object specifies the deployment type and limit in 2023-05-01
        name = "Standard",             
        capacity = 10                  # This deployment will be set with a 10K TPM limit
    },
    properties = {
        model = {
            format = "OpenAI",
            name = "gpt-35-turbo",
            version = "0613"           # Deploy gpt-35-turbo version 0613
        }
    }
  })
}

有关更多详细信息，请参阅完整的 Terraform 参考文档。

资源的删除

尝试从 Azure 门户删除 Azure OpenAI 资源时，如果仍然存在部署，则系统会阻止该删除，直到你删除关联的部署为止。先删除部署可以正确释放配额分配，以便将其用于新的部署。

但是，如果使用 REST API 或其他编程方法来删除资源，则无需先删除部署。发生这种情况时，关联的配额分配将在 48 小时内无法分配给新部署，直到资源被清除为止。若要为已删除的资源触发即时清除以释放配额，请按照有关如何清除已删除资源的说明进行操作。

后续步骤

若要查看 Azure OpenAI 的配额默认值，请参阅配额和上限一文

通过

管理 Azure OpenAI 服务配额

先决条件

配额简介

分配配额

特定于模型的设置

查看和请求配额

迁移现有部署

了解速率上限

速率上限最佳做法

自动进行部署

部署

示例请求

使用情况

示例请求

部署

使用情况

示例

部署

使用情况

示例

资源的删除

后续步骤

反馈

其他资源