模型服務限制和區域
本文摘要說明 Mosaic AI 模型服務和支援的端點類型的限制和區域可用性。
資源和承載限制
Mosaic AI 模型服務會強制執行預設限制,以確保可靠的效能。 如果您有這些限制的意見反應,請連絡您的 Databricks 帳戶小組。
下列 table 摘要說明模型服務端點的資源和承載限制。
功能 | 細微性 | Limit |
---|---|---|
承載大小 | 依據要求 | 16 MB。 針對服務 基礎模型 或 外部模型 的端點,limit 為 4 MB。 |
每秒查詢數 (QPS) | 每個工作區 | 200,但可以透過連絡您的 Databricks 帳戶小組,增加到 25,000 或更多。 |
模型執行持續時間 | 依據要求 | 120 秒 |
CPU 端點模型記憶體使用量 | 每個端點 | 4GB |
GPU 端點模型記憶體使用量 | 每個端點 | 大於或等於指派的 GPU 記憶體,具體取決於 GPU 工作負載大小 |
佈建的並行 | 每個模型和每個工作區 | 200 並行。 您可以透過連絡 Databricks 帳戶小組來增加。 |
額外負荷延遲 | 依據要求 | 小於 50 毫秒 |
init 指令碼 | 不支援 Init 腳本。 | |
基礎模型 API (按權杖付費) 速率限制 | 每個工作區 | 如果下列限制不足以用於您的使用案例,Databricks 建議使用佈建的輸送量。 - Llama 3.3 70B 指導模型具有一種 limit,能夠每秒處理 2 次查詢,每小時 1200 次查詢。 - Llama 3.1 405B 指令模式具有以下性能:limit 每秒 1 個查詢和每小時 1200 個查詢。 - DBRX Instruct 模型每秒有 1 次查詢的 limit。 - Mixtral-8x 7B Instruct 模式的預設速率為每秒 2 次查詢 limit。 - GTE 大型 (英文) 的速率為每秒 150 次查詢,標記 limit - BGE Large (En) 的速率 limit 每秒 600 個查詢。 |
基礎模型 API (佈建的輸送量) 速率限制 | 每個工作區 | 200 |
網路和安全性限制
- 模型服務端點受到存取控制的保護,並遵守工作區設定的網路相關輸入規則,例如 IP 允許清單及私人連結。
- 私人連線能力(例如 Azure Private Link)僅支援使用布建輸送量的模型服務端點,或提供自定義模型的端點。
- 根據預設,模型服務不支援外部端點的私人連結 (例如 Azure OpenAI)。 這項功能的支援會根據每個區域進行評估和實作。 如需詳細資訊,請連絡 Azure Databricks 客戶團隊。
- 模型服務不會提供現有模型映像的安全性修補程式,因為生產部署存在不穩定風險。 從新模型版本建立的新模型映像會包含最新的修補程式。 如需詳細資訊,請連絡 Databricks 客戶團隊。
基礎模型 API 限制
注意
作為提供基礎模型 API 的一部分,Databricks 可能會 where 您的數據在區域外部處理數據,但不是位於相關 地理位置之外。
針對每個令牌付費和布建的輸送量工作負載:
- 只有工作區管理員可以變更治理設定,例如基礎模型 API 端點的速率限制。 若要變更速率限制,請使用下列步驟:
- 開啟工作區中的 [服務 UI],以查看您的服務端點。
- 從您要編輯的基礎模型 API 端點的 kebab 選單中,select檢視詳細資料。
- 從端點詳細資料頁面右上角的 kebab 選單,select[變更率] limit。
- GTE Large (En) 內嵌模型不會 generate 標準化內嵌。
每一令牌付費限制
以下是與基礎模型 API 按令牌 付費工作負載相關的限制:
- 按權杖付費工作負載不符合 HIPAA 或合規性安全性設定檔規範。
Meta Llama 3.3 70B 和GTE Large (En) 模型可在歐盟和美國支援的區域付費。 - 下列按 [按權杖付費] 模型僅在基礎模型 API 按權杖付費支援的美國區域受到支援:
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Mixtral-8x7B Instruct
- BGE Large (En)
- 如果您的工作區位於模型服務區域,但不是美國或歐盟區域,則必須啟用您的工作區以進行 跨地理位置數據處理。 啟用時,您的每一令牌付費工作負載會路由傳送至美國。 Databricks Geo。 若要查看哪些地理區域會處理每個令牌的付費工作負載,請參閱 Databricks 指定的服務。
布建的輸送量限制
以下是與基礎模型 API 布建輸送量 工作負載相關的限制:
- 布建的輸送量 支援 HIPAA 合規性配置檔,並建議用於需要合規性認證的工作負載。
- 若要針對 [佈建的輸送量] 工作負載使用 DBRX 模型架構,您的服務端點必須位於下列其中一個區域:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- 下列 table 顯示支援的 Meta Llama 3.1 和 3.2 模型的區域可用性。 如需如何部署微調模型的指導,請參閱 部署微調的基礎模型 。
Meta Llama 模型變體 | 地區 |
---|---|
meta-llama/Llama-3.1-8B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-8B-指示 | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-70B-指示 | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-405B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-405B-指示 | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-1B-指示 | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-3B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-3B-指示 | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.3-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
區域可用性
注意
如果您需要不支援區域中端點,請連絡您的 Azure Databricks 客戶團隊。
如果您的工作區部署在支援模型服務的區域中,但由 不支持區域中的控制平面 提供服務,則工作區不支援模型服務。 如果您嘗試在這類工作區中使用模型服務,您會看到錯誤訊息指出不支援您的工作區。 如需詳細資訊,請連絡 Azure Databricks 客戶團隊。
如需功能區域可用性的詳細資訊,請參閱模型服務區域可用性。