Begränsningar och regioner för distribution av modeller

Artikel
03/11/2025

Den här artikeln sammanfattar begränsningarna och regionens tillgänglighet för Mosaic AI Model Serving och slutpunktstyper som stöds.

Resurs- och nyttolastgränser

Mosaic AI Model Serving inför standardgränser för att säkerställa tillförlitliga prestanda. Om du har feedback om dessa gränser kontaktar du ditt Databricks-kontoteam.

I följande tabell sammanfattas resurs- och nyttolastbegränsningar för modell som betjänar slutpunkter.

Egenskap	Detaljeringsgrad	Gräns
Nyttolaststorlek	På begäran	16 MB. För slutpunkter som betjänar grundmodeller, externa modellereller AI-agenter gränsen är 4 MB.
Storlek på begäran/svar	På begäran	Begäran/svar över 1 MB loggas inte.
Frågor per sekund (QPS)	Per arbetsyta	200, men kan ökas till 25 000 eller mer genom att kontakta ditt Databricks-kontoteam.
Modellkörningens varaktighet	På begäran	120 sekunder
Minnesanvändning för cpu-slutpunktsmodell	Per slutpunkt	4 GB
Minnesanvändning för GPU-slutpunktsmodell	Per slutpunkt	Större än eller lika med tilldelat GPU-minne beror på GPU-arbetsbelastningens storlek
Förberedd konkurrens	Per modell och per arbetsyta	200 konkurrens. Kan ökas genom att kontakta ditt Databricks-kontoteam.
Överliggande latens	På begäran	Mindre än 50 millisekunder
Initieringsskript		Init-skript stöds inte.
Hastighetsbegränsningar för Foundation Model-API:er (betala per token)	Per arbetsyta	Om följande gränser inte är tillräckliga för ditt användningsfall rekommenderar Databricks att du använder etablerat dataflöde. Llama 3.3 70B Instruct har en gräns på 2 frågor per sekund och 1 200 frågor per timme. Llama 3.1 405B Instruct har en gräns på 1 fråga per sekund och 1 200 frågor per timme. DBRX Instruct-modellen har en gräns på 1 fråga per sekund. Mixtral-8x 7B Instruct har en standardfrekvensgräns på 2 frågor per sekund. GTE Large (En) har en hastighetsgräns på 150 frågor per sekund BGE Large (En) har en hastighetsgräns på 600 frågor per sekund.
Hastighetsbegränsningar för Foundation Model API:er (etablerat dataflöde)	Per arbetsyta	200

Nätverks- och säkerhetsbegränsningar

Modellserverslutpunkter skyddas av åtkomstkontroll och respekterar nätverksrelaterade ingressregler som konfigurerats på arbetsytan, till exempel IP-tillåtna listor och Private Link.
Privat anslutning (till exempel Azure Private Link) stöds endast för modeller som betjänar slutpunkter som använder etablerat dataflöde eller slutpunkter som hanterar anpassade modeller.
Modellservern stöder som standard inte Private Link till externa slutpunkter (till exempel Azure OpenAI). Stöd för den här funktionen utvärderas och implementeras per region. Kontakta ditt Azure Databricks-kontoteam för mer information.
Modellservern tillhandahåller inte säkerhetskorrigeringar för befintliga modellbilder på grund av risken för destabilisering av produktionsdistributioner. En ny modellbild som skapats från en ny modellversion innehåller de senaste korrigeringarna. Kontakta ditt Databricks-kontoteam för mer information.

Gränser för API:er för grundmodell

Anteckning

Som en del av att tillhandahålla Foundation Model-API:er kan Databricks bearbeta dina data utanför den region där dina data ursprungligen lagrades, men inte utanför den relevanta geografiska platsen .

För både betala per token och tilldelad genomströmningskapacitet arbetsbelastningar:

Endast arbetsyteadministratörer kan ändra styrningsinställningarna, till exempel hastighetsgränser för Foundation Model API:er-slutpunkter. Om du vill ändra hastighetsbegränsningar använder du följande steg:
1. Öppna användargränssnittet för servering på din arbetsyta för att se dina serveringsslutpunkter.
2. Välj Visa information från kebabmenyn i ändpunkten för Foundation Model-API:er som du vill redigera.
3. Välj Ändra hastighetsgränsfrån kebabmenyn längst upp till höger på sidan med slutpunktsinformation.
GTE Large (En) inbäddningsmodeller genererar inte normaliserade inbäddningar.

Gränser för betalning per token

Följande är begränsningar som är relevanta för pay-per-token-arbetsbelastningar för Foundation Model API:er:

Tjänster med betalning per token är HIPAA-kompatibla.
- För kunder med efterlevnadssäkerhetsprofilen aktiverad är arbetsbelastningar med betalning per token tillgängliga förutsatt att efterlevnadsstandarden HIPAA- eller Ingen har valts. Andra efterlevnadsstandarder stöds inte för betala per token-arbeten.
Meta Llama 3.3 70B och GTE Large (En) modeller finns tillgängliga i betalning-per-token-regioner som stöds av EU och USA.
Följande modeller med betalning per token stöds endast i Foundation Model API:er som har betalning per token i de stödjande regionerna i USA:
- Meta Llama 3.1 405B Instruct
- DBRX-instruktioner
- Mixtral-8x7B Instruct
- Big Green Egg Large (En)
Om din arbetsyta finns i en modellserveringsregion men inte i en region i USA eller EU måste arbetsytan vara aktiverad för databearbetning mellan geografiska områden. När den är aktiverad dirigeras din betala per token-arbetsbelastning till USA Databricks Geo. För att se vilka geografiska regioner som bearbetar arbetsbelastningar med betalning per token, se Databricks Designated Services.

Etablerade dataflödesgränser

Följande är begränsningar som är relevanta för Foundation Model-API:er bestämda arbetsbelastningar för genomströmning:

Etablerat dataflöde stöder HIPAA-efterlevnadsprofilen och rekommenderas för arbetsbelastningar som kräver efterlevnadscertifieringar.
Om du vill använda DBRX-modellarkitekturen för en tilldelad genomströmningsbelastning måste din server-slutpunkt finnas i någon av följande regioner:
- eastus
- eastus2
- westus
- centralus
- westeurope
- northeurope
- australiaeast
- canadacentral
- brazilsouth
I följande tabell visas regiontillgängligheten för de Meta Llama 3.1-, 3.2- och 3.3-modeller som stöds. Se Distribuera finjusterade grundmodeller för vägledning om hur du distribuerar finjusterade modeller.
Om du vill distribuera en Meta Llama-modell från system.ai i Unity Catalog måste du välja tillämplig Instruera version. Basversioner av Meta Llama-modellerna stöds inte för distribution från Unity Catalog. Se [Rekommenderas] Distribuera grundmodeller från Unity Catalog.

Meta Llama-modellvariant	Regioner
meta-llama/Llama-3.1-8B	`australiaeast` `centralus` `eastus` `eastus2` `northcentralus` `southcentralus` `westus` `westus2` `northeurope` `westeurope` `uksouth` `japaneast`
meta-llama/Llama-3.1-8B-Instruct	`australiaeast` `centralus` `eastus` `eastus2` `northcentralus` `southcentralus` `westus` `westus2` `northeurope` `westeurope` `uksouth` `japaneast`
meta-llama/Llama-3.1-70B	`australiaeast` `centralus` `eastus` `eastus2` `northcentralus` `southcentralus` `westus` `westus2` `northeurope` `westeurope` `uksouth` `japaneast`
meta-llama/Llama-3.1-70B-Instruct	`australiaeast` `centralus` `eastus` `eastus2` `northcentralus` `southcentralus` `westus` `westus2` `northeurope` `westeurope` `uksouth` `japaneast`
meta-llama/Llama-3.1-405B	`australiaeast` `centralus` `eastus` `eastus2` `northcentralus` `southcentralus` `westus` `westus2` `northeurope` `westeurope` `uksouth` `japaneast`
meta-llama/Llama-3.1-405B-Instruct	`australiaeast` `centralus` `eastus` `eastus2` `northcentralus` `southcentralus` `westus` `westus2` `northeurope` `westeurope` `uksouth` `japaneast`
meta-llama/Llama-3.2-1B	`australiaeast` `centralus` `eastus` `eastus2` `northcentralus` `southcentralus` `westus` `westus2` `northeurope` `westeurope` `uksouth` `japaneast`
meta-llama/Llama-3.2-1B-Instruct	`australiaeast` `centralus` `eastus` `eastus2` `northcentralus` `southcentralus` `westus` `westus2` `northeurope` `westeurope` `uksouth` `japaneast`
meta-llama/Llama-3.2-3B	`australiaeast` `centralus` `eastus` `eastus2` `northcentralus` `southcentralus` `westus` `westus2` `northeurope` `westeurope` `uksouth` `japaneast`
meta-llama/Llama-3.2-3B-Instruct	`australiaeast` `centralus` `eastus` `eastus2` `northcentralus` `southcentralus` `westus` `westus2` `northeurope` `westeurope` `uksouth` `japaneast`
meta-llama/Llama-3.3-70B	`australiaeast` `centralus` `eastus` `eastus2` `northcentralus` `southcentralus` `westus` `westus2` `northeurope` `westeurope` `uksouth` `japaneast`

Regiontillgänglighet

Anteckning

Om du behöver en slutpunkt i en region som inte stöds kontaktar du ditt Azure Databricks-kontoteam.

Om din arbetsyta distribueras i en region som stöder modellservering men hanteras av ett kontrollplan i en region som inte stöds stöder arbetsytan inte modellhantering. Om du försöker använda en modell som betjänar en sådan arbetsyta visas ett felmeddelande om att arbetsytan inte stöds. Kontakta ditt Azure Databricks-kontoteam för mer information.

Mer information om regional tillgänglighet för funktioner finns i Modell som betjänar regional tillgänglighet.

Dela via