你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure OpenAI 预配 2024 年 8 月更新

2024 年 8 月中旬,Microsoft 推出了对预配吞吐量产品/服务的改进,以解决客户对可用性和运营灵活性的反馈,从而打开新的付款选项和部署方案。

本文适用于预配吞吐量产品/服务的现有用户。 新客户应参阅 Azure OpenAI 预配加入指南

有什么变化?

下面是针对预配托管产品/服务推出的功能。

重要

本文中的更改不适用于旧的“预配经典版 (PTU-C)”产品/服务。 它们仅影响“预配”(也称为“预配托管”)产品/服务。

可用性改进

功能 好处
与模式无关的配额 涵盖所有模式/版本的单个配额限制可减少配额管理,并加速新模式的试验。
自助服务配额请求 无需销售团队参与即可请求增加配额 – 许多请求可以自动批准。
许多区域中设置了默认预配托管配额 无需先请求配额即可快速开始。
有关实时容量可用性的透明信息 + 新部署流 减少有关可用性的谈判可加快上市时间。

新的按小时计/预留商业模式

功能 好处
无需承诺的按小时计使用量 没有所需套餐的按小时计支付选项可实现短期部署方案。
通过 Azure 预留获得期限折扣 与按小时计算的费率相比,Azure 的一个月和一年期预留提供了大幅折扣,并提供了可最大限度地减少管理并与当前资源限定套餐相关的灵活范围。
许多区域中设置了默认预配托管配额 无需先请求配额即可在新区域快速开始。
现有预配客户可灵活选择付款模式 具有套餐的客户可以将套餐模式保持到 2024 年底,并且可以选择通过自助服务或托管流程将现有套餐迁移到按小时计/预留。
支持最新的模式代系 按小时计/预留模式是部署 2024 年 8 月 1 日之后发布的模式所必需的。

可用性改进详细信息

预配的配额粒度从特定于模式更改为与模式无关。 每个订阅和区域都有一个配额项,用于限制可跨所有受支持的模式和版本部署的 PTU 总数,而不是订阅和区域中的每个模式和版本都有其自己的配额限制。

与模式无关的配额

从 2024 年 8 月 12 日起,现有客户当前的特定于模式的配额已转换为与模式无关的配额。 此过程自动发生。 转换中不会丢失配额。 现有配额限制会进行求和并分配给与模式无关的新配额项。

示意图显示配额的合并。

与模式无关的新配额显示为名为“预配托管吞吐量单位”的配额项,其中模式和版本不再包含在名称中。 在“工作室配额”窗格中,展开配额项仍会显示组成配额项的所有部署。

默认配额

在很多区域中,新订阅和现有订阅分配了少量的预配配额。 这样,客户无需先请求配额即可开始使用这些区域。

对于现有客户,如果区域已包含配额分配,则不会更改该区域的配额限制。 例如,它不会自动增加新的默认量。

自助服务配额请求

客户不再通过联系销售团队来获取配额, 而是使用自助服务配额请求表单并指定 PTU 托管配额类型。 可从配额项右侧的链接访问表单。 目标是在两个工作日内响应所有配额请求。

下面的配额屏幕截图显示了不同类型的部署使用的与模式无关的配额,以及请求其他配额的链接。

屏幕截图显示 Azure OpenAI 预配用于请求更多配额的新请求类型 UI。

配额为限制

在 8 月更新之前,Azure OpenAI 预配仅适用于少数客户,分配配额是为了最大程度地提高他们部署和使用配额的能力。 通过这些更改,所有用户获取配额的过程得到了简化,并且在尝试部署时更有可能遇到服务容量限制。 新的 API 和工作室体验可用于帮助用户查找订阅具有配额并且该服务有容量支持部署所需模式的区域。

我们还建议使用套餐的客户现在在创建或扩展套餐以进行覆盖之前创建其部署。 这可以保证容量在创建套餐之前可用,并防止过度购买套餐。 为了支持这一点,阻止创建大于套餐的部署的限制已被删除。 这种配额、容量可用性和套餐的新方法与按小时计/预留模式下提供的内容相匹配,购买套餐(或对于按小时计的模式来说,为购买预留)之前的部署指南对这两者都是相同的。

有关详细信息,请参阅以下链接。 预留和套餐指南相同:

按小时计的新预留付款模式

注意

以下对付款模式的说明不适用于旧的“预配经典版 (PTU-C)”产品/服务。 它们仅影响“预配”(也称为“预配托管”)产品/服务。 预配经典版将继续采用相同的包月套餐付款模式。

Microsoft 为预配的部署引入了新的“按小时计/预留”付款模式。 除此之外,当前的套餐付款模式至少在 2024 年底之前将继续得到支持

套餐付款模式

  • 需要区域性的包月套餐才能使用预配(通过合同可以约定更长的期限)。

  • 套餐与 Azure OpenAI 资源绑定,这使得难以跨资源移动部署。

  • 除非添加新的 PTU,否则不能在期限内取消或更改套餐。

  • 支持在 2024 年 8 月 1 日之前发布的模式。

按小时计预留付款模式

  • 该付款模式与其他产品的 Azure 标准保持一致。

  • 支持无套餐的按小时计使用。

  • 一个月和一年期折扣可以作为区域性 Azure 预留购买。

  • 预留可以灵活地限定范围以涵盖多个订阅,并且可以在中期更改范围。

  • 支持所有新旧模式。

重要

2024 年 8 月 1 日之后发布的模式需要使用按小时计/预留付款模式。 它们不能部署在具有有效套餐的 Azure OpenAI 资源上。 若要部署在 8 月 1 日之后发布的模式,现有的客户必须执行以下任一项操作:

  • 在不使用套餐的情况下,在 Azure OpenAI 资源上创建部署。
  • 将现有资源从其套餐中迁移走。

付款模式框架

随着每小时/预留付款模式的发布,付款选项变得更加灵活,关于预配付款的模式已发生变更。 当一个月的套餐是购买预配的唯一方法时,模型是:

  1. 从你的 Microsoft 帐户团队获取 PTU 配额。
  2. 你要部署的资源套餐中的“购买”配额。
  3. 在套餐的限制内在资源上创建部署。

此模式和新模式之间的主要区别在于,以前为预配支付的唯一方法是使用一个月的期限折扣。 现在,如果你选择并单独决定是否通过一个月的套餐(像以前那样)或 Azure 预留来获取部署的折扣,则你可以部署它们并按每小时付费。

通过此见解,看待付款模式的新方法是:

  1. 使用自助服务表单获取 PTU 配额。
  2. 使用配额创建部署。
  3. (可选)购买或延长套餐或预留,以对部署应用期限折扣。

在所有情况下,步骤 1 和步骤 2 都是相同的。 区别在于使用套餐还是 Azure 预留作为提供折扣的工具。 在这两个模式中:

  • 可以部署比折扣更多的 PTU。 (例如,通过部署而不购买折扣,可以创建短期部署以尝试新模式)

  • 折扣方法(套餐或预留)将折扣价格应用于固定数量的 PTU,并具有一个范围,用于定义哪些部署计入折扣。

    折扣类型 可用范围(在区域内)
    承诺 Azure OpenAI 资源
    行 2 资源组、单个订阅、管理组(订阅组)、共享(计费帐户中的所有订阅)
  • 折扣价格应用于已部署的 PTU,上至折扣中的折扣 PTU 数。

  • 超过折扣 PTU(或不受任何折扣覆盖)的已部署 PTU 数按小时费率收费。

  • 最佳做法是先创建部署,然后应用折扣。 这是为了保证服务。 在为你无法使用的 PTU 创建期限套餐之前,我们可提供容量来支持部署。

注意

当你遵循最佳做法时,你可能会在创建部署和增加折扣(套餐或预留)之间收到小时费用。

出于此原因,我们建议你准备好在部署后立即增加折扣。 购买 Azure 预留的先决条件不同于套餐,我们建议在部署之前验证它们(如果你打算使用它们来折扣部署)。 有关详细信息,请参阅查看和管理 Azure 预留的权限

将部署映射到折扣方法

使用 2024 年 8 月之前的 Azure OpenAI Provisioned 的客户可以在一个订阅中同时使用两种付款模式。 用于每个部署的付款模式根据其 Azure OpenAI 资源来确定:

资源具有活动的套餐

  • 套餐会对资源上的所有部署施加折扣,上至套餐的 PTU 数。 任何多余的 PTU 将按小时计费。

资源没有活动的套餐

  • 资源下的部署有资格使用 Azure 预留的折扣。 要使这些部署获得折扣,它们必须存在于活动预留的范围内。 预留范围内的所有部署(包括同一订阅或其他订阅中其他资源上的可能部署)将作为一个组来获得折扣,上至预留上的 PTU 数。 任何多余的 PTU 将按小时计费。

对现有付款模式的更改

具有当前套餐的客户至少可以在 2024 年底之前继续使用它们。 这包括以新的或现有的套餐购买新的 PTU,以及管理套餐续订行为。 但是,8 月更新改变了套餐操作的某些方面。

  • 只有在 2024 年 8 月 1 日之前根据预配要求发布的模型才能部署到附带承诺的资源上。

  • 如果套餐下的已部署 PTU 超过已提交的 PTU,则按小时计的超额费用将根据新的按小时计/预留付款模式所使用的相同每小时计量收取。 这样可以通过 Azure 预留对超额费用打折。

  • 部署的 PTU 有可能多于资源承诺的数量。 这样可以支持在增加套餐大小以进行覆盖之前能够保证容量可用性。

将现有资源从套餐中迁移走

现有客户可以选择将现有资源从“套餐”迁移到“按小时计/预留”付款模式,以便能够部署最新模式,或合并单个预留下不同部署的折扣。

客户有两种方法可用于将使用套餐模式的资源迁移到按小时计/预留模式。

自助迁移

自助服务迁移方法允许客户通过让资源过期来有组织地迁移走其套餐的资源。 迁移资源的过程如下所示:

  • 将现有套餐设置为不自动续订并记下到期日期。

  • 在到期日期之前,客户应购买 Azure 预留,其中涵盖每个订阅中承诺的 PTU 总数。 如果现有预留已在其范围内拥有订阅,则可以增加其大小,以涵盖新的 PTU。

  • 当套餐到期时,该资源下的部署将自动切换到按小时计/预留模式,其使用量按预留折算。

这种自助迁移方法将导致预留和套餐都处于活动状态的这样一种重叠。 这是此迁移模式的一个特征,并且此重叠的预留或套餐时间不会返还给客户。

自助迁移的替代方法是将预留购买切换为在套餐到期后发生。 在此方法中,部署将在套餐到期和购买预留之间的时间产生按小时计的使用量。 与上一个模式一样,这是此方法的一个特征,并且此按小时计的使用量无法抵扣。

自助服务迁移的优点:

  • 可以在不同的时间迁移单个资源。
  • 客户不依赖于 Microsoft 管理迁移。

自助服务迁移的缺点:

  • 在从套餐切换到按小时计/预留计费期间,将有一段短时间的重复计费或按小时计费用。

重要

这两种自助方法都会在付款模式从“套餐”切换到“按小时计/预留”时产生一些额外费用。 这些是迁移方法的特征,客户不会因这些费用而获得抵扣。 客户可以选择使用下面所述的托管迁移方法来避免这些费用。

托管迁移

托管迁移方法是指客户与 Microsoft 合作,在同一时间批量迁移订阅/区域中的所有 PTU 套餐。 其工作方式如下所述:

  1. 客户需要帐户团队的参与并请求托管迁移。 将指定 Microsoft 团队的一名迁移所有者来帮助客户进行迁移。
  2. 当客户的每个包含当前 PTU 套餐的订阅和区域中的所有资源从套餐迁移到按小时计/预留计费模式时,将选择日期。 可以在同一日期迁移多个订阅和区域。
  3. 在约定的日期:
    • 客户将购买区域预留,以涵盖将转换的套餐 PTU,并将预留信息传递给其 Microsoft 迁移联系人。
    • 在 2-3 个工作日内,将主动取消所有套餐,并且之前存在于套餐下的部署将开始使用按小时计/预留付款模式。
    • 在购买预留后的计费周期中,客户将收到预留购买的额度,从购买预留的时间开始,涵盖已取消的套餐部分。

客户必须联系其帐户团队来安排托管迁移。

托管迁移的优点:

  • 批量迁移订阅/区域中的所有套餐对具有很多套餐的客户有利。
  • 无缝成本迁移:不可能进行双重计费或按小时额外收费。

托管迁移的缺点:

  • 订阅/区域中的所有套餐必须同时迁移。
  • 需要与 Microsoft 团队协调迁移的时间。

管理预配的吞吐量承诺

预配的吞吐量套餐通过 Azure OpenAI Studio 中的“管理套餐”菜单进行创建和管理。 你可以通过从“配额”菜单中选择“管理套餐”来导航到此视图

承诺使用量购买 UI 的屏幕截图,其中包含通知。

在“管理套餐”视图中,你可以执行多项操作:

  • 购买新承诺或编辑现有承诺。
  • 监视订阅中的所有承诺。
  • 确定可能导致意外计费的承诺并针对该类承诺采取措施。

以下部分将引导你完成这些任务。

购买预配吞吐量承诺

准备好承诺计划后,下一步是创建承诺。 承诺是通过 Azure OpenAI Studio 手动创建的,并要求创建承诺的用户在订阅级别具有参与者或认知服务参与者角色

对于需要创建的每个新承诺,请执行以下步骤:

  1. 通过选择“配额”>“预配”>“管理承诺”来启动“预配吞吐量购买”对话框。

“购买”对话框的屏幕截图。

  1. 选择“购买承诺”

  2. 选择 Azure OpenAI 资源并购买承诺。 你将看到资源被划分为具有现有承诺的资源(这些资源可编辑),以及当前没有承诺的资源。

设置 说明
选择资源 选择要在其中创建预配部署的资源。 购买承诺后,在当前承诺到期前,无法在另一资源上使用 PTU。
选择承诺类型 选择“已预配”。 (“预配”相当于“预配托管”)
当前未承诺的预配配额 当前可供你承诺到此资源的 PTU 数。
承诺量 (PTU) 选择要承诺的 PTU 数。 此数字可以在承诺期内增加,但不能减少。 请以 50 为增量输入承诺类型“预配”对应的值。
当前期间的承诺层级 承诺期设置为一个月。
续订设置 在当前 PTU 自动续订
在较低 PTU 自动续订
不自动续订
  1. 选择“购买”。 将显示确认对话框。 确认后,将承诺 PTU,并可以使用它们创建预配的部署。 |

承诺使用量购买 UI 的屏幕截图。

重要

新的承诺将提前进行整期计费。 如果将续订设置设为自动续订,则会在每个续订日期根据续订设置进行再次计费。

编辑现有的预配吞吐量承诺

在“管理承诺”视图中,还可以编辑现有承诺。 你可以对现有承诺进行两种类型的更改:

  • 可以向承诺添加 PTU。
  • 可以更改续订设置。

若要编辑承诺,请选择要编辑的当前承诺,然后选择“编辑承诺”。

向现有承诺添加预配吞吐量单位

通过向现有承诺添加 PTU,将允许你在资源中创建更大或更多部署。 你可以在承诺期内随时执行此操作。

承诺使用量购买 UI 的屏幕截图,其中增大了承诺数量值。

重要

向承诺添加 PTU 时,将立即按照从当前日期到现有承诺期结束的比例金额对其进行计费。 添加 PTU 不会重置承诺期。

更改续订设置

在承诺到期日期之前,可以随时更改承诺续订设置。 你可能想要更改续订设置的原因包括:通过将套餐设置为不自动续订来终止预配吞吐量的使用,或者通过降低下一个时间段内承诺的 PTU 数量来减少预配吞吐量的使用。

重要

如果你允许承诺过期或减小规模,从而使资源下的部署需要比资源承诺中更多的 PDU,则会被收取任何超额 PTU 的每小时超额费用。 例如,如果资源具有总共 500 个 PTU 的部署,但承诺为 300 个 PTU,那么将会有 200 个 PTU 产生每小时超额费用。

监视承诺并防止意外计费

“管理承诺”窗格提供了一个订阅范围的概述,其中列出了给定 Azure 订阅中的所有资源以及承诺和 PTU 使用情况。 特别重要的是:

  • 承诺、部署和使用的 PTU – 这些数字提供了承诺的规模以及部署正在使用的数量。 通过使用所有承诺的 PTU 可实现投资最大化。
  • 到期策略和日期 - 到期日期和策略会告诉你承诺何时到期,以及届时将发生的情况。 设置为自动续订的套餐将在续订日期产生计费事件。 对于即将到期的承诺,请确保在到期日期之前删除这些资源中的部署,以防止基于承诺的当前续订设置产生每小时超额计费。
  • 通知 - 有关重要条件的警报,例如未使用的承诺以及可能导致计费超额的配置。 可导致计费超额的情况有多种,例如承诺已到期但部署仍然存在,因此转变为了每小时计费。

常见承诺管理方案

停止使用预配吞吐量

若要终止预配吞吐量的使用、防止在承诺到期后产生每小时超额费用,并在当前承诺到期后停止所有收费,必须执行两个步骤:

  1. 将所有承诺的续订策略设置为“不自动续订”
  2. 删除使用配额的预配部署。

将承诺/部署移到同一订阅/区域中的新资源

在 Azure OpenAI Studio 中,无法直接将部署或承诺移动到新资源。 而是需要在目标资源上创建新的部署,并将流量移动到其中。 为此,需要在新资源上建立购买承诺。 由于承诺需要预先支付 30 天的费用,因此有必要在原始承诺到期时进行此操作,以尽量减少与新承诺的重叠和重叠期间的“双重计费”。

可通过两种方法来实现此转换。

选项 1:无重叠切换

此选项需要一些停机时间,但不需要额外的配额,也不会产生额外的费用。

步骤 说明
将现有承诺的续订策略设置为到期 这可阻止续订承诺和产生更多费用
在现有承诺到期之前,删除其部署 停机时间将从此时开始,持续到创建新部署并移动流量为止。 可以通过在尽可能接近到期日期/时间的时间进行删除来最大限度缩短此持续时间。
在现有承诺到期后,在新资源上创建承诺 在到期后尽快执行此步骤和下一步,以最大限度减少停机时间。
在新资源上创建部署,并将流量移到其中

选项 2:重叠切换

此选项同时运行现有部署和新部署,因此没有停机时间。 这需要具有可用于创建新部署的配额,并且会在重叠部署期间产生额外费用。

步骤 说明
将现有承诺的续订策略设置为到期 这样做可防止续订承诺和产生更多费用。
在现有承诺到期之前:
1.在新资源上创建承诺。
2.创建新部署。
3.切换流量
4.删除现有部署
请确保在现有承诺到期之前为所有步骤留出足够的时间,否则可能产生超额费用(请参阅下一节)。

如果最后一步花费的时间超过预期,并且会在现有承诺到期后完成,可以通过三种选择来最大程度降低超额费用。

  • 停机:删除原始部署,然后完成移动
  • 支付超额费用:保留原始部署并按小时付费,直到你移出流量并删除部署
  • 重置原始承诺:再续订一次。 这让你有时间以已知成本完成搬迁。

支付超额费用和重置原始承诺都会产生超出原始到期日期的费用。 如果只需要一两天即可完成移动,那么支付超额费用可能比新的一个月承诺便宜。 比较这两个选项的成本,找到成本最低的方法。

将部署移动到新区域和/或新订阅

在区域中移动承诺和部署时,可使用相同的方法,只不过在所有情况下都需要在新位置拥有可用配额。

查看和编辑现有资源

在 Azure OpenAI Studio 中,选择“配额”>“预配”>“管理承诺”,然后选择一个具有现有承诺的资源以查看/更改该资源