共用方式為


模型服務限制和區域

本文摘要說明 Mosaic AI 模型服務和支援的端點類型的限制和區域可用性。

資源和承載限制

Mosaic AI 模型服務會強制執行預設限制,以確保可靠的效能。 如果您有這些限制的意見反應,請連絡您的 Databricks 帳戶小組。

下列 table 摘要說明模型服務端點的資源和承載限制。

功能 細微性 Limit
承載大小 依據要求 16 MB。 針對服務 基礎模型外部模型 的端點,limit 為 4 MB。
每秒查詢數 (QPS) 每個工作區 200,但可以透過連絡您的 Databricks 帳戶小組,增加到 25,000 或更多。
模型執行持續時間 依據要求 120 秒
CPU 端點模型記憶體使用量 每個端點 4GB
GPU 端點模型記憶體使用量 每個端點 大於或等於指派的 GPU 記憶體,具體取決於 GPU 工作負載大小
佈建的並行 每個模型和每個工作區 200 並行。 您可以透過連絡 Databricks 帳戶小組來增加。
額外負荷延遲 依據要求 小於 50 毫秒
init 指令碼 不支援 Init 腳本。
基礎模型 API (按權杖付費) 速率限制 每個工作區 如果下列限制不足以用於您的使用案例,Databricks 建議使用佈建的輸送量。

- Llama 3.3 70B 指導模型具有一種 limit,能夠每秒處理 2 次查詢,每小時 1200 次查詢。
- Llama 3.1 405B 指令模式具有以下性能:limit 每秒 1 個查詢和每小時 1200 個查詢。
- DBRX Instruct 模型每秒有 1 次查詢的 limit。
- Mixtral-8x 7B Instruct 模式的預設速率為每秒 2 次查詢 limit。
- GTE 大型 (英文) 的速率為每秒 150 次查詢,標記 limit
- BGE Large (En) 的速率 limit 每秒 600 個查詢。
基礎模型 API (佈建的輸送量) 速率限制 每個工作區 200

網路和安全性限制

  • 模型服務端點受到存取控制的保護,並遵守工作區設定的網路相關輸入規則,例如 IP 允許清單及私人連結
  • 私人連線能力(例如 Azure Private Link)僅支援使用布建輸送量的模型服務端點,或提供自定義模型的端點。
  • 根據預設,模型服務不支援外部端點的私人連結 (例如 Azure OpenAI)。 這項功能的支援會根據每個區域進行評估和實作。 如需詳細資訊,請連絡 Azure Databricks 客戶團隊。
  • 模型服務不會提供現有模型映像的安全性修補程式,因為生產部署存在不穩定風險。 從新模型版本建立的新模型映像會包含最新的修補程式。 如需詳細資訊,請連絡 Databricks 客戶團隊。

基礎模型 API 限制

注意

作為提供基礎模型 API 的一部分,Databricks 可能會 where 您的數據在區域外部處理數據,但不是位於相關 地理位置之外

針對每個令牌付費和布建的輸送量工作負載:

  • 只有工作區管理員可以變更治理設定,例如基礎模型 API 端點的速率限制。 若要變更速率限制,請使用下列步驟:
    1. 開啟工作區中的 [服務 UI],以查看您的服務端點。
    2. 從您要編輯的基礎模型 API 端點的 kebab 選單中,select檢視詳細資料
    3. 從端點詳細資料頁面右上角的 kebab 選單,select[變更率] limit
  • GTE Large (En) 內嵌模型不會 generate 標準化內嵌。

每一令牌付費限制

以下是與基礎模型 API 按令牌 付費工作負載相關的限制:

  • 按權杖付費工作負載不符合 HIPAA 或合規性安全性設定檔規範。
  • Meta Llama 3.3 70BGTE Large (En) 模型可在歐盟和美國支援的區域付費。
  • 下列按 [按權杖付費] 模型僅在基礎模型 API 按權杖付費支援的美國區域受到支援:
    • Meta Llama 3.1 405B Instruct
    • DBRX Instruct
    • Mixtral-8x7B Instruct
    • BGE Large (En)
  • 如果您的工作區位於模型服務區域,但不是美國或歐盟區域,則必須啟用您的工作區以進行 跨地理位置數據處理。 啟用時,您的每一令牌付費工作負載會路由傳送至美國。 Databricks Geo。 若要查看哪些地理區域會處理每個令牌的付費工作負載,請參閱 Databricks 指定的服務

布建的輸送量限制

以下是與基礎模型 API 布建輸送量 工作負載相關的限制:

  • 布建的輸送量 支援 HIPAA 合規性配置檔,並建議用於需要合規性認證的工作負載。
  • 若要針對 [佈建的輸送量] 工作負載使用 DBRX 模型架構,您的服務端點必須位於下列其中一個區域:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • 下列 table 顯示支援的 Meta Llama 3.1 和 3.2 模型的區域可用性。 如需如何部署微調模型的指導,請參閱 部署微調的基礎模型
Meta Llama 模型變體 地區
meta-llama/Llama-3.1-8B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-8B-指示 - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-70B-指示 - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-405B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-405B-指示 - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-1B-指示 - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B-指示 - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.3-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2

區域可用性

注意

如果您需要不支援區域中端點,請連絡您的 Azure Databricks 客戶團隊。

如果您的工作區部署在支援模型服務的區域中,但由 不支持區域中的控制平面 提供服務,則工作區不支援模型服務。 如果您嘗試在這類工作區中使用模型服務,您會看到錯誤訊息指出不支援您的工作區。 如需詳細資訊,請連絡 Azure Databricks 客戶團隊。

如需功能區域可用性的詳細資訊,請參閱模型服務區域可用性