Limity a regiony nasazování modelů
Tento článek shrnuje omezení a dostupnost oblastí pro obsluhu modelu Mosaic AI a podporované typy koncových bodů.
Omezení prostředků a zatížení
Služba obsluhy modelu AI v systému Mosaic ukládá výchozí limity pro zajištění spolehlivého výkonu. Pokud máte k těmto limitům zpětnou vazbu, obraťte se na svůj tým účtů Databricks.
Následující tabulka shrnuje omezení prostředků a datového obsahu pro koncové body poskytování modelů.
Funkce | Členitost | omezení |
---|---|---|
Velikost užitečného zatížení | Na žádost | 16 MB. Pro koncové body obsluhující základní modely, externí modely, nebo AI agenty je limit 4 MB. |
Velikost požadavku nebo odpovědi | Na žádost | Všechny požadavky a odpovědi nad 1 MB se nebudou protokolovat. |
Dotazy za sekundu (QPS) | Na pracovní prostor | 200, ale můžete ho zvýšit na 25 000 nebo více tím, že se obraťte na tým účtu Databricks. |
Doba trvání provádění modelu | Na žádost | 120 sekund |
Využití paměti modelu koncového bodu procesoru | Za koncový bod | 4 GB |
Využití paměti modelu koncového bodu GPU | Za koncový bod | Větší nebo rovna přiřazené paměti GPU, v závislosti na velikosti zátěže GPU. |
Předem definovaná souběžnost | Pro každý model a pracovní prostor | 200 konkurence. Můžete ho zvýšit kontaktováním vašeho týmu pro účet Databricks. |
Režijní latence | Na žádost | Méně než 50 milisekund |
Inicializační skripty | Inicializační skripty nejsou podporovány. | |
Omezení tarifů rozhraní API modelu Foundation (platba za token) | Na pracovní prostor | Pokud pro váš případ použití nejsou dostatečná následující omezení, databricks doporučuje používat zřízenou propustnost.
|
Omezení rychlosti rozhraní API základního modelu (zřízená propustnost) | Na pracovní prostor | 200 |
Omezení sítě a zabezpečení
- Koncové body obsluhy modelů jsou chráněné řízením přístupu a respektují pravidla příchozího přenosu dat související se sítí nakonfigurovaná v pracovním prostoru, jako jsou seznamy povolených IP adres a Private Link.
- Privátní připojení (například Azure Private Link) se podporuje jenom u modelů obsluhujících koncové body, které používají zřízenou propustnost nebo koncové body, které obsluhují vlastní modely.
- Služba modelování ve výchozím nastavení nepodporuje službu Private Link k externím koncovým bodům (jako je Azure OpenAI). Podpora této funkce se vyhodnocuje a implementuje na základě jednotlivých oblastí. Další informace získáte od týmu účtu Azure Databricks.
- Nasazení modelů neposkytuje bezpečnostní opravy existujícím obrazům modelů kvůli riziku destabilizace produkčních nasazení. Nová image modelu vytvořená z nové verze modelu bude obsahovat nejnovější opravy. Další informace získáte od týmu účtu Databricks.
Omezení rozhraní API základního modelu
Poznámka:
V rámci poskytování rozhraní API základního modelu může Databricks zpracovávat vaše data mimo oblast, kde vaše data pocházejí, ale ne mimo relevantní zeměpisné umístění.
Pro úlohy s platbou za token a zřízenou propustností:
- Nastavení zásad správného řízení můžou změnit jenom správci pracovního prostoru, jako jsou limity rychlosti pro koncové body rozhraní API modelu Foundation. Pokud chcete změnit limity četnosti, postupujte takto:
- Otevřete uživatelské rozhraní pro služby ve vašem pracovním prostoru a zobrazte služební koncové body.
- V kebabové nabídce u koncového bodu rozhraní API základního modelu, který chcete upravit, vyberte Zobrazit podrobnosti.
- V nabídce označované jako "kebab" (ikona se třemi tečkami) na pravé horní straně stránky podrobností koncových bodů vyberte Změnit limit rychlosti.
- GTE Large (En) vkládací modely negenerují normalizované embeddingy.
Limity plateb za tokeny
Následující omezení jsou relevantní pro úlohy rozhraní API základního modelu s platbami za tokeny :
-
úlohy s platbami za tokeny jsou kompatibilní se standardem HIPAA.
- Pro zákazníky s povoleným profilem zabezpečení v souladu s předpisy jsou k dispozici pracovní zátěže s platbami dle počtu tokenů za předpokladu, že je vybraný standard dodržování předpisů HIPAA nebo Žádná. U úloh s platbami za tokeny se nepodporují jiné standardy dodržování předpisů.
- Modely Meta Llama 3.3 70B a GTE Large (En) jsou k dispozici v oblastech s platbou za token podporovaných v EU a USA.
- Následující modely s platbami za tokeny jsou podporovány pouze v oblastech USA podporovaných rozhraními API základního modelu:
- Meta Llama 3.1 405B Instruktáž
- DBRX – instrukce
- Mixtral-8x7B – instrukce
- BGE Large (En)
- Pokud je váš pracovní prostor v oblasti obsluhy modelů, ale ne v oblasti USA nebo EU, musí být váš pracovní prostor povolený pro zpracování dat napříč geografickou oblastí. Pokud je tato možnost povolená, vaše úloha s platbou za token se přesměruje do USA. Databricks Geo Informace o tom, které geografické oblasti zpracovávají úlohy s platbami za tokeny, najdete v tématu Databricks Designated Services.
Limity zřízené propustnosti
Následující omezení jsou relevantní pro úlohy
- Zřízená propustnost podporuje profil dodržování předpisů HIPAA a doporučuje se pro úlohy, které vyžadují certifikace dodržování předpisů.
- Pokud chcete pro zřízenou úlohu propustnosti použít architekturu modelu DBRX, musí být váš koncový bod obsluhy v jedné z následujících oblastí:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- Následující tabulka uvádí dostupnost podporovaných modelů Meta Llama 3.1, 3.2 a 3.3. Pokyny k nasazení jemně vyladěných základních modelů najdete v tématu Nasazení jemně vyladěných modelů .
- Pokud chcete nasadit model Meta Llama z
system.ai
v katalogu Unity, musíte zvolit příslušnou verzi Instruct. Základní verze modelů Meta Llama nejsou podporovány pro nasazení z katalogu Unity. Viz [Doporučeno] Nasazení základních modelů z katalogu Unity.
Varianta modelu Meta Llama | Oblasti |
---|---|
meta-llama/Llama-3.1-8B |
|
meta-llama/Llama-3.1-8B-Instruct |
|
meta-llama/Llama-3.1-70B |
|
meta-llama/Llama-3.1-70B-Instruct |
|
meta-llama/Llama-3.1-405B |
|
meta-llama/Llama-3.1-405B-Instruct |
|
meta-llama/Llama-3.2-1B |
|
meta-llama/Llama-3.2-1B-Instruct |
|
meta-llama/Llama-3.2-3B |
|
meta-llama/Llama-3.2-3B-Instruct |
|
meta-llama/Llama-3.3-70B |
|
Dostupnost oblastí
Poznámka:
Pokud potřebujete koncový bod v nepodporované oblasti, obraťte se na svůj tým účtů Azure Databricks.
Pokud je váš pracovní prostor nasazen v oblasti, která podporuje obsluhu modelu, ale řídicí rovina se nachází v nepodporované oblasti, pracovní prostor nepodporuje obsluhu modelu. Pokud se pokusíte použít model obsluhující v tomto pracovním prostoru, zobrazí se chybová zpráva s oznámením, že váš pracovní prostor není podporovaný. Další informace získáte od týmu účtu Azure Databricks.
Další informace o regionální dostupnosti funkcí najdete v Model serving regional availability.