Begränsningar och regioner för distribution av modeller
Den här artikeln sammanfattar begränsningarna och regionens tillgänglighet för Mosaic AI Model Serving och slutpunktstyper som stöds.
Resurs- och nyttolastgränser
Mosaic AI Model Serving inför standardgränser för att säkerställa tillförlitliga prestanda. Om du har feedback om dessa gränser kontaktar du ditt Databricks-kontoteam.
I följande tabell sammanfattas resurs- och nyttolastbegränsningar för modell som betjänar slutpunkter.
Egenskap | Detaljeringsgrad | Gräns |
---|---|---|
Nyttolaststorlek | På begäran | 16 MB. För slutpunkter som betjänar grundmodeller, externa modellereller AI-agenter gränsen är 4 MB. |
Storlek på begäran/svar | På begäran | Begäran/svar över 1 MB loggas inte. |
Frågor per sekund (QPS) | Per arbetsyta | 200, men kan ökas till 25 000 eller mer genom att kontakta ditt Databricks-kontoteam. |
Modellkörningens varaktighet | På begäran | 120 sekunder |
Minnesanvändning för cpu-slutpunktsmodell | Per slutpunkt | 4 GB |
Minnesanvändning för GPU-slutpunktsmodell | Per slutpunkt | Större än eller lika med tilldelat GPU-minne beror på GPU-arbetsbelastningens storlek |
Förberedd konkurrens | Per modell och per arbetsyta | 200 konkurrens. Kan ökas genom att kontakta ditt Databricks-kontoteam. |
Överliggande latens | På begäran | Mindre än 50 millisekunder |
Initieringsskript | Init-skript stöds inte. | |
Hastighetsbegränsningar för Foundation Model-API:er (betala per token) | Per arbetsyta | Om följande gränser inte är tillräckliga för ditt användningsfall rekommenderar Databricks att du använder etablerat dataflöde.
|
Hastighetsbegränsningar för Foundation Model API:er (etablerat dataflöde) | Per arbetsyta | 200 |
Nätverks- och säkerhetsbegränsningar
- Modellserverslutpunkter skyddas av åtkomstkontroll och respekterar nätverksrelaterade ingressregler som konfigurerats på arbetsytan, till exempel IP-tillåtna listor och Private Link.
- Privat anslutning (till exempel Azure Private Link) stöds endast för modeller som betjänar slutpunkter som använder etablerat dataflöde eller slutpunkter som hanterar anpassade modeller.
- Modellservern stöder som standard inte Private Link till externa slutpunkter (till exempel Azure OpenAI). Stöd för den här funktionen utvärderas och implementeras per region. Kontakta ditt Azure Databricks-kontoteam för mer information.
- Modellservern tillhandahåller inte säkerhetskorrigeringar för befintliga modellbilder på grund av risken för destabilisering av produktionsdistributioner. En ny modellbild som skapats från en ny modellversion innehåller de senaste korrigeringarna. Kontakta ditt Databricks-kontoteam för mer information.
Gränser för API:er för grundmodell
Anteckning
Som en del av att tillhandahålla Foundation Model-API:er kan Databricks bearbeta dina data utanför den region där dina data ursprungligen lagrades, men inte utanför den relevanta geografiska platsen .
För både betala per token och tilldelad genomströmningskapacitet arbetsbelastningar:
- Endast arbetsyteadministratörer kan ändra styrningsinställningarna, till exempel hastighetsgränser för Foundation Model API:er-slutpunkter. Om du vill ändra hastighetsbegränsningar använder du följande steg:
- Öppna användargränssnittet för servering på din arbetsyta för att se dina serveringsslutpunkter.
- Välj Visa information från kebabmenyn i ändpunkten för Foundation Model-API:er som du vill redigera.
- Välj Ändra hastighetsgränsfrån kebabmenyn längst upp till höger på sidan med slutpunktsinformation.
- GTE Large (En) inbäddningsmodeller genererar inte normaliserade inbäddningar.
Gränser för betalning per token
Följande är begränsningar som är relevanta för pay-per-token-arbetsbelastningar för Foundation Model API:er:
- Tjänster med betalning per token är HIPAA-kompatibla.
- Betalning per token arbetsbelastningar är inte kompatibla med efterlevnadssäkerhetsprofilen.
- Meta Llama 3.3 70B och GTE Large (En) modeller finns tillgängliga i betalning-per-token-regioner som stöds av EU och USA.
- Följande modeller med betalning per token stöds endast i Foundation Model API:er som har betalning per token i de stödjande regionerna i USA:
- Meta Llama 3.1 405B Instruct
- DBRX-instruktioner
- Mixtral-8x7B Instruct
- Big Green Egg Large (En)
- Om din arbetsyta finns i en modellserveringsregion men inte i en region i USA eller EU måste arbetsytan vara aktiverad för databearbetning mellan geografiska områden. När den är aktiverad dirigeras din betala per token-arbetsbelastning till USA Databricks Geo. För att se vilka geografiska regioner som bearbetar arbetsbelastningar med betalning per token, se Databricks Designated Services.
Etablerade dataflödesgränser
Följande är begränsningar som är relevanta för Foundation Model-API:er bestämda arbetsbelastningar för genomströmning:
- Etablerat dataflöde stöder HIPAA-efterlevnadsprofilen och rekommenderas för arbetsbelastningar som kräver efterlevnadscertifieringar.
- Om du vill använda DBRX-modellarkitekturen för en tilldelad genomströmningsbelastning måste din server-slutpunkt finnas i någon av följande regioner:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- I följande tabell visas regiontillgängligheten för de Meta Llama 3.1-, 3.2- och 3.3-modeller som stöds. Se Distribuera finjusterade grundmodeller för vägledning om hur du distribuerar finjusterade modeller.
- Om du vill distribuera en Meta Llama-modell från
system.ai
i Unity Catalog måste du välja tillämplig Instruera version. Basversioner av Meta Llama-modellerna stöds inte för distribution från Unity Catalog. Se [Rekommenderas] Distribuera grundmodeller från Unity Catalog.
Meta Llama-modellvariant | Regioner |
---|---|
meta-llama/Llama-3.1-8B |
|
meta-llama/Llama-3.1-8B-Instruct |
|
meta-llama/Llama-3.1-70B |
|
meta-llama/Llama-3.1-70B-Instruct |
|
meta-llama/Llama-3.1-405B |
|
meta-llama/Llama-3.1-405B-Instruct |
|
meta-llama/Llama-3.2-1B |
|
meta-llama/Llama-3.2-1B-Instruct |
|
meta-llama/Llama-3.2-3B |
|
meta-llama/Llama-3.2-3B-Instruct |
|
meta-llama/Llama-3.3-70B |
|
Regiontillgänglighet
Anteckning
Om du behöver en slutpunkt i en region som inte stöds kontaktar du ditt Azure Databricks-kontoteam.
Om din arbetsyta distribueras i en region som stöder modellservering men hanteras av ett kontrollplan i en region som inte stöds stöder arbetsytan inte modellhantering. Om du försöker använda en modell som betjänar en sådan arbetsyta visas ett felmeddelande om att arbetsytan inte stöds. Kontakta ditt Azure Databricks-kontoteam för mer information.
Mer information om regional tillgänglighet för funktioner finns i Modell som betjänar regional tillgänglighet.