共用方式為


佈建輸送量單位上線

本文將逐步引導您完成佈建輸送量單位 (PTU) 的上線程序。 完成初始上線之後,建議您參考 PTU 入門指南

何時使用佈建輸送量單位 (PTU)

當您有妥善定義、可預測的輸送量和延遲需求時,您應該考慮從標準部署切換到布建的部署。 一般而言,當應用程式可供生產環境使用或已部署在生產環境中且了解預期流量時,就會發生這種情況。 這可讓使用者準確地預測所需的容量,並避免非預期的計費。

典型的 PTU 案例

  • 可供生產環境使用或在生產環境中的應用程式。
  • 具有可預測容量/使用量預期的應用程式。
  • 應用程式具有即時/延遲敏感性需求。

注意

在函式呼叫和代理程式使用案例中,權杖使用量可能有所不同。 在將工作負載移轉至 PTU 之前,您應該先詳細了解預期的每分鐘權杖數 (TPM) 使用量。

重設大小和估計:布建的部署

判斷工作負載所需的正確佈建輸送量或 PTU 數量,是最佳化效能和成本的重要步驟。 如果您不熟悉可用來估計系統層級輸送量的不同方法,請檢閱效能 和延遲檔中的系統層級輸送量估計建議。 本節說明如何使用 Azure OpenAI 容量計算機來估計支援指定工作負載所需的 PTU 數目。

估計布建的輸送量單位和成本

若要使用輸入和輸出 TPM 快速預估工作負載,請在部署對話畫面的部署詳細數據區段中運用內建容量規劃工具。 內建容量規劃工具是部署工作流程的一部分,可協助簡化指定工作負載之 PTU 部署的配額大小和配置。 如需如何識別及估計 TPM 數據的詳細資訊,請檢閱效能 和延遲檔中的建議。

在內建容量計算機中填寫輸入和輸出 TPM 數據之後,請選取 [ 計算 ] 按鈕以檢視您的 PTU 配置建議。

部署工作流程 PTU 容量計算機的螢幕快照。

若要使用要求層級數據來估計布建的容量,請在 Azure AI Studio開啟容量規劃工具。 容量計算機位於共用資源>模型配額>Azure OpenAI 布建之下。

只有特定區域的 [配額] 窗格中才會提供 [已佈建] 選項和容量規劃工具,如果您沒有看到此選項,將配額區域設定為 [瑞典中部] 會提供此選項。 根據您的工作負載輸入下列參數。

輸入 描述
模型 您計劃使用的 OpenAI 模型。 例如:GPT-4
版本 您計劃使用的模型版本,例如 0614
每分鐘尖峰呼叫數 預期要傳送至模型的每分鐘呼叫數目
提示呼叫中的權杖數 每次呼叫模型提示中的權杖數目。 具有較大提示的呼叫會利用更多 PTU 部署。 目前,此計算機假設具有廣泛差異的工作負載使用單一提示值。 建議您在流量上對部署進行效能評定,以判斷部署所需的最精確 PTU 估計值。
模型回應中的權杖數 每次呼叫模型所產生的權杖數目。 具有較大世代大小的呼叫會利用更多 PTU 部署。 目前,此計算機假設具有廣泛差異的工作負載使用單一提示值。 建議您在流量上對部署進行效能評定,以判斷部署所需的最精確 PTU 估計值。

填妥必要的詳細資料之後,請在輸出資料行中選取 [計算] 按鈕。

輸出資料行中的值是提供之工作負載輸入所需的 PTU 單位估計值。 第一個輸出值代表工作負載所需的估計 PTU 單位,四捨五入為最接近的 PTU 小數位數遞增。 第二個輸出值代表工作負載所需的原始估計 PTU 單位。 權杖總數是使用下列方程式來計算:Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response)

容量計算機的螢幕快照

注意

容量計算機會根據簡單的輸入準則提供估計值。 判斷容量的最準確方式,是透過對使用案例具代表性的工作負載,對部署進行效能評定。

了解佈建輸送量購買模型

Azure OpenAI 布建和全域布建會根據已部署的 PTU 數目,依需求每小時購買,透過購買 Azure 保留提供大量期限折扣。

每小時模型適用於短期部署需求,例如驗證新模型或取得駭客松的容量。  不過,適用於 Azure OpenAI 佈建和全域佈建的 Azure 保留所提供的折扣相當可觀,而且大部分具有一致長期使用量的客戶會發現保留模型是更好的價值主張。

注意

在 8 月自助更新之前上線的 Azure OpenAI 佈建客戶會使用稱為承諾用量模型的購買模型。 這些客戶可以繼續搭配每小時/保留購買模型使用此舊版購買模型。 新客戶無法使用承諾用量模型。 如需承諾用量購買模型以及共存和移轉選項的詳細資料,請參閱 Azure OpenAI 佈建 8 月更新

每小時使用量

佈建和全域佈建部署會針對已部署的 PTU 數目按每小時費率 ($/PTU/小時) 收取費用。  例如,300 個 PTU 部署會收取每小時費率乘以 300 的費用。  Azure 定價計算機中提供所有 Azure OpenAI 定價。

如果部署存在不到一小時,則會根據該小時內部署的分鐘數,按比例收取費用。  例如,針對一小時內存在 15 分鐘的部署,會收取每小時費用的 1/4。 

如果部署大小變更,則會調整部署成本以符合新的 PTU 數目。

此圖表顯示每小時計費。

每小時支付佈建和全域佈建部署費用很適合短期部署案例。  例如:新模型的品質和效能評定,或暫時增加 PTU 容量以涵蓋駭客松等活動。 

不過,需要長期使用佈建和全域佈建部署的客戶,可能會透過 Azure 保留購買長期折扣,以每月支付明顯較少的費用 (如下一節所述)。

注意

不建議根據傳入流量調整生產環境部署大小,並每小時支付費用。 這有兩個理由︰

  • 購買適用於 Azure OpenAI 佈建的 Azure 保留可大幅節省成本,在許多情況下,維持透過保留支付全面生產量的部署大小,會比根據傳入流量調整部署大小還要便宜。
  • 擁有未使用的佈建配額 (PTU) 不保證在需要時有容量可支援增加部署大小。 配額會限制可部署的 PTU 數目上限,但這不是容量保證。 每個區域和模型的佈建容量會在一天中動態變更輸送量,而且可能在需要時無法使用。 因此,建議您維持永久部署,以涵蓋您的流量需求 (透過保留付費)。
  • 已刪除資源的部署會繼續產生費用,直到資源清除為止。 若要避免此狀況,請先刪除資源的部署,再刪除資源。 如需詳細資訊,請參閱復原或清除已刪除的 Azure AI 服務資源

適用於 Azure OpenAI 布建部署的 Azure 保留

購買適用於 Azure OpenAI 佈建和全域佈建的 Azure 保留,即可享有每小時使用量價格折扣。 Azure 保留是許多 Azure 產品共用的期限折扣機制。 例如,計算和 Cosmos DB。 針對 Azure OpenAI 佈建和全域佈建,保留會為承諾支付一個月或一年期固定 PTU 數目提供折扣。 

  • Azure 保留是透過 Azure 入口網站 購買,而不是 Azure AI Studio 連結至 Azure 保留入口網站。

  • 保留會依區域購買,並可彈性地限定範圍,以涵蓋一組部署的使用量。 保留範圍包括:

    • 個別資源群組或訂用帳戶

    • 管理群組中的一組訂用帳戶

    • 計費帳戶中的所有訂用帳戶

  • 您可以購買新的保留來涵蓋與現有保留相同的範圍,以允許新的佈建部署享有折扣。 現有的保留範圍也可以隨時更新,而不會有罰款,例如為了涵蓋新的訂用帳戶。

  • 購買後可取消保留,但點數有限。

  • 如果保留範圍內的佈建部署大小超過保留數量,則會按每小時費率收取超額費用。 例如,如果在 200 個 PTU 的保留範圍內部署了 250 個 PTU,則會收取 50 個 PTU 的每小時費用,直到部署大小縮減為 200 個 PTU,或建立新的保留以涵蓋其餘 50 個。

  • 保留會保證所選期限內可享折扣價格。  但不會保留服務容量,亦不保證在建立部署時容量可供使用。 強烈建議客戶在購買保留之前先建立部署,以防止超額購買保留。

重要

  • 模型部署的容量可用性是動態的,且在不同區域和模型間常會有變更。 為避免購買超出您所能使用的 PTU 保留,請先建立部署,再購買 Azure 保留,以涵蓋您已部署的 PTU。 此最佳做法可確保您可以充分利用保留折扣,並防止您購買無法使用的期間承諾用量。

  • 購買保留的 Azure 角色和租用戶原則需求,與建立部署或 Azure OpenAI 資源的需求不同。 請在需要購買保留前事先確認其授權。 如需更多詳細資料,請參閱 Azure OpenAI 佈建保留文件

重要事項:調整 Azure OpenAI 布建的保留大小

保留購買中的 PTU 數量與配額中配置或部署中使用的 PTU 無關。 您可以購買比配額中所擁有或是可針對所需區域、模型或版本部署之 PTU 更多的保留。 超額購買保留的點數有限,客戶必須採取步驟,以確保其保留大小符合其已部署的 PTU。

最佳做法是一律在建立部署之後購買保留。 這可防止購買保留後發現必要容量無法供所需的區域或模型使用。

協助客戶購買正確的保留數量。 訂用帳戶和區域中可由保留涵蓋的 PTU 總數列在 Azure AI Studio 的 [配額] 頁面上。 請參閱「可供保留的 PTU」訊息。

此螢幕擷取畫面顯示可用的 PTU 配額。

管理 Azure 保留

建立保留之後,最好加以監視,以確保收到您預期的使用量。 這可透過 Azure 保留入口網站或 Azure 監視器來完成。 如需這些主題和其他主題的詳細資料,請參閱:

下一步