你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure AI 模型推理中的部署类型

项目
02/04/2025

Azure AI 服务中的 Azure AI 模型推理为客户提供了适合其业务和使用模式的托管结构选择。该服务提供两种主要部署类型：标准和预配。标准提供全球部署选项，全球路由流量以提供更高的吞吐量。 “预配”类型也提供全球部署选项，允许客户在 Azure 全球基础结构中购买和部署预配的吞吐量单位。

所有部署都可以执行完全相同的推理操作，但计费、规模和性能却大不相同。作为解决方案设计的一部分，需要做出两个关键决策：

数据驻留需求：全球资源与区域资源
调用量：标准与预配

部署类型支持因模型和模型提供程序而异。可以在“模型”部分查看每个模型支持的部署类型 (SKU)。

全球部署类型与区域部署类型

对于标准和预配部署，可以在资源 - 全局或资源 - 区域中选择两种类型的配置。建议以全球标准为起点。

全球部署利用 Azure 的全球基础结构，将客户流量动态路由到可用性最好的数据中心，以满足客户的推理请求。这意味着，你将获得全局最高的初始吞吐量限制和最佳模型可用性，同时仍提供运行时间 SLA 和低延迟。对于标准层和全局标准上指定使用层以上的大容量工作负荷，可能会遇到延迟差异增加的情况。对于在大型工作负荷使用量上需要较小的延迟差异的客户，我们建议购买预配的吞吐量。

我们的全球部署将是所有新模型和功能的首发地。吞吐量要求较大的客户应考虑我们的预配部署服务。

Standard

标准部署针对所选模型提供按调用付费的计费模型。提供最快速的入门方法，因为只需为使用的内容付费。每个区域中可用的模型以及吞吐量可能受限。

标准部署针对低到中等流量、高突发性的工作负荷进行优化。具有稳定大流量的客户可能会遇到更大的延迟变化。

只有 Azure OpenAI 模型支持此部署类型。

全球标准

全球部署可在与非全球部署类型相同的 Azure AI 服务资源中使用，但允许利用 Azure 的全球基础结构将每个请求的流量动态路由到具有最佳可用性的数据中心。全球标准提供最高的默认配额，且无需跨多个资源进行负载均衡。

具有稳定大流量的客户可能会遇到更大的延迟变化。为每个模型设置阈值。对于在大型工作负载使用中需要较小的延迟差异的应用程序，建议购买预配的吞吐量（如果可用）。

全局预配

全球部署可在与非全球部署类型相同的 Azure AI 服务资源中使用，但允许利用 Azure 的全球基础结构将每个请求的流量动态路由到具有最佳可用性的数据中心。全局预配部署使用 Azure 全局基础结构为高吞吐量和可预测的吞吐量提供预留模型处理容量。