Azure AI 模型推斷 Azure AI 服務中的配額和限制
本文包含快速參考,以及 Azure AI 模型在 Azure AI 服務中推斷配額和限制的詳細描述。 如需 Azure OpenAI 服務專屬的配額和限制,請參閱 Azure OpenAI 服務中的配額和限制。
配額和限制參考
下列各節提供 Azure AI 服務中適用於 Azure AI 模型推斷服務之預設配額和限制的快速指南:
資源限制
限制名稱 | 限制值 |
---|---|
每個 Azure 訂用帳戶每個區域的 Azure AI 服務資源 | 30 |
每個資源的最大部署數 | 32 |
速率限制
限制名稱 | 限制值 |
---|---|
每分鐘令牌 (Azure OpenAI 模型) | 依模型和 SKU 而有所不同。 請參閱 Azure OpenAI 的限制。 |
每分鐘令牌 (模型其餘部分) | 200.000 |
每分鐘要求數 (Azure OpenAI 模型) | 依模型和 SKU 而有所不同。 請參閱 Azure OpenAI 的限制。 |
每分鐘要求數(模型其餘部分) | 1.000 |
其他 限制
限制名稱 | 限制值 |
---|---|
API 要求中的自訂標頭數目上限 1 | 10 |
1 我們目前的 API 最多允許 10 個自訂標頭,這些標頭會透過管線傳遞並傳回。 我們注意到目前有一些客戶已超過此標頭數量,從而導致 HTTP 431 錯誤。 除了減少標頭數量外,沒有其他針對此錯誤的解決方案。 在未來的 API 版本中,我們不會再透過自訂標頭進行傳遞。 我們建議客戶在未來的系統架構中不要依賴自訂標頭。
使用層
全域標準部署會使用 Azure 的全域基礎結構,以動態方式將客戶流量路由傳送至數據中心,並針對客戶的推斷要求提供最佳可用性。 這可為低到中層級流量的客戶啟用更一致的延遲。 具有高持續使用量層級的客戶可能會在回應延遲中看到更多變化。
使用限制會決定高於客戶在回應延遲中可能會看到較大變化的使用量層級。 每個模型都會定義客戶的使用量,而且是指定租使用者所有區域中所有訂用帳戶中所有部署中耗用的總令牌。
保持在速率限制內的一般最佳做法
若要盡量減少與速率限制相關的問題,最好使用下列技術:
- 在您的應用程式中實作重試邏輯。
- 避免工作負載急遽變化。 逐漸增加工作負載。
- 測試不同的負載增加模式。
- 增加指派給部署的配額。 視需要從另一個部署中移動配額。
要求增加至預設配額和限制
配額增加要求可以提交並評估每個要求。 提交服務要求。