Dela via


Gränser och regioner för modellservering

Den här artikeln sammanfattar begränsningarna och regionens tillgänglighet för Mosaic AI Model Serving och slutpunktstyper som stöds.

Resurs- och nyttolastgränser

Mosaic AI Model Serving inför standardgränser för att säkerställa tillförlitliga prestanda. Om du har feedback om dessa gränser kontaktar du ditt Databricks-kontoteam.

I följande tabell sammanfattas resurs- och nyttolastbegränsningar för modell som betjänar slutpunkter.

Funktion Precision Gräns
Nyttolaststorlek Per förfrågan 16 MB. För slutpunkter som betjänar grundmodeller, externa modellereller AI-agenter gränsen är 4 MB.
Storlek på begäran/svar Per förfrågan Begäran/svar över 1 MB loggas inte.
Frågor per sekund (QPS) Per arbetsyta 200, men kan ökas till 25 000 eller mer genom att kontakta ditt Databricks-kontoteam.
Varaktighet för modellkörning Per förfrågan 120 sekunder
Minnesanvändning för cpu-slutpunktsmodell Per slutpunkt 4 GB
Minnesanvändning för GPU-slutpunktsmodell Per slutpunkt Större än eller lika med tilldelat GPU-minne beror på GPU-arbetsbelastningens storlek
Etablerad samtidighet Per modell och per arbetsyta 200 samtidighet. Kan ökas genom att kontakta ditt Databricks-kontoteam.
Svarstid för omkostnader Per förfrågan Mindre än 50 millisekunder
Init-skript Init-skript stöds inte.
Hastighetsbegränsningar för Foundation Model-API:er (betala per token) Per arbetsyta Om följande gränser inte är tillräckliga för ditt användningsfall rekommenderar Databricks att du använder etablerat dataflöde.

– Llama 3.3 70B Instruct har en gräns på 2 frågor per sekund och 1 200 frågor per timme.
– Llama 3.1 405B Instruct har en gräns på 1 fråga per sekund och 1 200 frågor per timme.
– DBRX Instruct-modellen har en gräns på 1 fråga per sekund.
– Mixtral-8x 7B Instruct har en standardfrekvensgräns på 2 frågor per sekund.
– GTE Large (En) har en hastighetsgräns på 150 frågor per sekund
– BGE Large (En) har en hastighetsgräns på 600 frågor per sekund.
Hastighetsbegränsningar för Foundation Model API:er (etablerat dataflöde) Per arbetsyta 200

Nätverks- och säkerhetsbegränsningar

  • Modellserverslutpunkter skyddas av åtkomstkontroll och respekterar nätverksrelaterade ingressregler som konfigurerats på arbetsytan, till exempel IP-tillåtna listor och Private Link.
  • Privat anslutning (till exempel Azure Private Link) stöds endast för modeller som betjänar slutpunkter som använder etablerat dataflöde eller slutpunkter som hanterar anpassade modeller.
  • Modellservern stöder som standard inte Private Link till externa slutpunkter (till exempel Azure OpenAI). Stöd för den här funktionen utvärderas och implementeras per region. Kontakta ditt Azure Databricks-kontoteam för mer information.
  • Modellservern tillhandahåller inte säkerhetskorrigeringar för befintliga modellbilder på grund av risken för destabilisering av produktionsdistributioner. En ny modellbild som skapats från en ny modellversion innehåller de senaste korrigeringarna. Kontakta ditt Databricks-kontoteam för mer information.

Gränser för API:er för grundmodell

Kommentar

Som en del av att tillhandahålla FOUNDATION Model-API:er kan Databricks bearbeta dina data utanför den region och molnleverantör där dina data har sitt ursprung.

Kommentar

Som en del av att tillhandahålla Foundation Model-API:er kan Databricks bearbeta dina data utanför den region där dina data ursprungligen lagrades, men inte utanför den relevanta geografiska platsen .

För både betala per token och etablerade dataflödesarbetsbelastningar :

  • Endast arbetsyteadministratörer kan ändra styrningsinställningarna, till exempel hastighetsgränser för Foundation Model API:er-slutpunkter. Om du vill ändra hastighetsbegränsningar använder du följande steg:
    1. Öppna användargränssnittet för servering på din arbetsyta för att se dina serveringsslutpunkter.
    2. Välj Visa informationpå kebabmenyn vid slutpunkten för Foundation Model-API:er som du vill redigera.
    3. Välj Ändra hastighetsgränsfrån kebabmenyn längst upp till höger på sidan med slutpunktsinformation.
  • GTE Large (En) inbäddningsmodeller genererar inte normaliserade inbäddningar.

Gränser för betalning per token

Följande är begränsningar som är relevanta för arbetsbelastningar med betala per token för Foundation Model-API:er:

  • Betala per token-arbetsbelastningar är inte HIPAA- eller efterlevnadssäkerhetsprofilkompatibla.
  • Meta Llama 3.3 70B och GTE Large (En) modeller finns i pay-per-token REGIONER som stöds av EU och USA.
  • Följande modeller för betala per token stöds endast i API:erna för foundation-modell som betalar per token som stöds i USA:s regioner:
    • Meta Llama 3.1 405B Instruera
    • DBRX-instruktioner
    • Mixtral-8x7B Instruct
    • Stor BGE (En)
  • Om din arbetsyta finns i en modellserveringsregion men inte i en region i USA eller EU måste arbetsytan vara aktiverad för databearbetning mellan geografiska områden. När den är aktiverad dirigeras din betala per token-arbetsbelastning till USA Databricks Geo. Information om vilka geografiska regioner som bearbetar arbetsbelastningar med betalning per token finns i Databricks Designated Services( Databricks Designated Services).

Etablerade dataflödesgränser

Följande är begränsningar som är relevanta för FOUNDATION Model-API:er som etablerats dataflödesarbetsbelastningar :

  • Etablerat dataflöde stöder HIPAA-efterlevnadsprofilen och rekommenderas för arbetsbelastningar som kräver efterlevnadscertifieringar.
  • Om du vill använda DBRX-modellarkitekturen för en etablerad dataflödesarbetsbelastning måste serverdelsslutpunkten finnas i någon av följande regioner:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • I följande tabell visas regiontillgängligheten för de Meta Llama 3.1-, 3.2- och 3.3-modeller som stöds. Se Distribuera finjusterade grundmodeller för vägledning om hur du distribuerar finjusterade modeller.
Meta Llama-modellvariant Regioner
meta-llama/Llama-3.1-8B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-8B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-70B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-405B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-405B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-1B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.3-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2

Etablerade dataflödesgränser

Följande är begränsningar som är relevanta för FOUNDATION Model-API:er som etablerats dataflödesarbetsbelastningar :

Regiontillgänglighet

Kommentar

Om du behöver en slutpunkt i en region som inte stöds kontaktar du ditt Azure Databricks-kontoteam.

Om din arbetsyta distribueras i en region som stöder modellservering men hanteras av ett kontrollplan i en region som inte stöds stöder arbetsytan inte modellhantering. Om du försöker använda en modell som betjänar en sådan arbetsyta visas ett felmeddelande om att arbetsytan inte stöds. Kontakta ditt Azure Databricks-kontoteam för mer information.

Mer information om regional tillgänglighet för funktioner finns i Modell som betjänar regional tillgänglighet.