Azure AI 模型推斷中的部署類型
Azure AI 服務中的 Azure AI 模型推斷可讓客戶選擇適合其商務和使用模式的裝載結構。 此服務提供兩種主要部署類型:標準和已佈建。 標準會隨著全域部署選項提供,以全域方式路由傳送流量以提供更高的輸送量。 佈建也提供全域部署選項,讓客戶可在 Azure 全域基礎結構之間購買和部署佈建的輸送量單位。
所有部署都可以執行完全相同的推斷作業,但計費、規模和效能大不相同。 在解決方案設計過程中,您必須做出兩項關鍵決策:
- 資料落地需求:全域與區域資源
- 通話量:標準與已佈建
部署類型支援會因模型和模型提供者而異。 您可以在 [模型] 區段中查看每個模型所支援的部署類型(SKU)。
全域與區域部署類型
針對標準和佈建的部署,您可選擇資源內的兩種組態類型 – 全域或區域。 全域標準是建議的起點。
全域部署會利用 Azure 的全域基礎結構,以動態方式將客戶流量路由傳送至數據中心,並針對客戶的推斷要求提供最佳可用性。 這表示您會獲得最高的初始輸送量限制,以及全域的最佳模型可用性,同時仍提供我們的運行時間 SLA 和低延遲。 對於標準與全域標準上指定使用量層級以上的大量工作負載,您可能會遇到更多延遲變化。 對於在大型工作負載使用量上需要較低延遲變異的客戶,我們建議購買已佈建的輸送量。
我們的全域部署是所有新模型和功能的第一個位置。 具有大型輸送量需求的客戶應考慮我們布建的部署供應專案。
標準
標準部署會對所選的模型提供按通話付費計費模型。 提供最快速的方式,您只需支付所取用項目的費用,即可開始使用。 每個區域可用的模型和輸送量可能會受到限制。
標準部署已針對高度高載的低到中等數量工作負載進行最佳化。 具有高額一致數量的客戶可能會遇到更大的延遲變化性。
只有 Azure OpenAI 模型支援此部署類型。
全域標準
全域部署可在與非全域部署類型相同的 Azure AI 服務資源中使用,但可讓您利用 Azure 的全域基礎結構,以動態方式將流量路由傳送至數據中心,並針對每個要求提供最佳可用性。 全域標準將提供最高的預設配額,且無需跨多個資源進行負載平衡。
具有高額一致數量的客戶可能會遇到更大的延遲變化性。 每個模型都會設定閾值。 對於在大型工作負載使用量上需要較低延遲差異的應用程式,我們建議在可用時購買布建的輸送量。
全域佈建
全域部署可在與非全域部署類型相同的 Azure AI 服務資源中使用,但可讓您利用 Azure 的全域基礎結構,以動態方式將流量路由傳送至數據中心,並針對每個要求提供最佳可用性。 全域佈建的部署會使用 Azure 全域基礎結構,為可預測的高輸送量提供保留的模型處理容量。
只有 Azure OpenAI 模型支援此部署類型。