Omezení a oblasti obsluhy modelů
Tento článek shrnuje omezení a dostupnost oblastí pro obsluhu modelu Mosaic AI a podporované typy koncových bodů.
Omezení prostředků a datových částí
Služba obsluhy modelu AI v systému Mosaic ukládá výchozí limity pro zajištění spolehlivého výkonu. Pokud máte k těmto limitům zpětnou vazbu, obraťte se na svůj tým účtů Databricks.
Následující tabulka shrnuje omezení pro prostředky a užitečný náklad pro koncové body poskytování modelů.
Funkce | Členitost | omezení |
---|---|---|
Velikost datové části | Na žádost | 16 MB. Pro koncové body obsluhující základní modely, externí modely, nebo AI agenty je limit 4 MB. |
Velikost požadavku nebo odpovědi | Na vyžádání | Všechny požadavky a odpovědi nad 1 MB se nebudou protokolovat. |
Dotazy za sekundu (QPS) | Na pracovní prostor | 200, ale můžete ho zvýšit na 25 000 nebo více tím, že se obraťte na tým účtu Databricks. |
Doba trvání provádění modelu | Na žádost | 120 sekund |
Využití paměti modelu koncového bodu procesoru | Za koncový bod | 4 GB |
Využití paměti modelu koncového bodu GPU | Na jeden koncový bod | Větší nebo rovna přiřazené paměti GPU, v závislosti na velikosti zátěže GPU. |
Předem definovaná souběžnost | Na model a na pracovní prostor | 200 konkurence. Můžete ho zvýšit kontaktováním vašeho týmu pro účet Databricks. |
Režijní latence | Na přání | Méně než 50 milisekund |
Inicializační skripty | Inicializační skripty nejsou podporovány. | |
Omezení tarifů rozhraní API modelu Foundation (platba za token) | Na pracovní prostor | Pokud pro váš případ použití nejsou dostatečná následující omezení, databricks doporučuje používat zřízenou propustnost. - Llama 3.3 70B Instruct má omezení 2 dotazy za sekundu a 1200 dotazů za hodinu. - Llama 3.1 405B Instruct má limit 1 dotaz za sekundu a 1200 dotazů za hodinu. – Model DBRX Instruct má limit 1 dotazu za sekundu. - Mixtral-8x 7B Instruct má výchozí limit rychlosti 2 dotazů za sekundu. - GTE Large (En) má limit rychlosti 150 dotazů za sekundu. – BGE Large (En) má limit rychlosti 600 dotazů za sekundu. |
Omezení rychlosti rozhraní API základního modelu (zřízená propustnost) | Na pracovní prostor | 200 |
Omezení sítě a zabezpečení
- Koncové body obsluhy modelů jsou chráněné řízením přístupu a respektují pravidla příchozího přenosu dat související se sítí nakonfigurovaná v pracovním prostoru, jako jsou seznamy povolených IP adres a Private Link.
- Privátní připojení (například Azure Private Link) se podporuje jenom u modelů obsluhujících koncové body, které používají zřízenou propustnost nebo koncové body, které obsluhují vlastní modely.
- Služba modelování ve výchozím nastavení nepodporuje službu Private Link k externím koncovým bodům (jako je Azure OpenAI). Podpora této funkce se vyhodnocuje a implementuje na základě jednotlivých oblastí. Další informace získáte od týmu účtu Azure Databricks.
- Obsluha modelů neposkytuje záplaty zabezpečení existujícím obrazům modelů kvůli riziku destabilizace produkčních nasazení. Nová image modelu vytvořená z nové verze modelu bude obsahovat nejnovější opravy. Další informace získáte od týmu účtu Databricks.
Omezení rozhraní API základního modelu
Poznámka:
V rámci poskytování rozhraní API základního modelu může Databricks zpracovávat vaše data mimo oblast, kde vaše data pocházejí, ale ne mimo relevantní zeměpisné umístění.
Pro úlohy s platbou za token a zřízenou propustností:
- Nastavení zásad správného řízení můžou změnit jenom správci pracovního prostoru, jako jsou limity rychlosti pro koncové body rozhraní API modelu Foundation. Pokud chcete změnit limity četnosti, postupujte takto:
- Otevřete rozhraní služby ve vašem pracovním prostoru a zobrazte koncové body služby.
- V nabídce kebab v koncovém bodu rozhraní API základního modelu, který chcete upravit, vyberte Zobrazit podrobnosti.
- V nabídce označované jako "kebab" (ikona se třemi tečkami) na pravé horní straně stránky podrobností koncových bodů vyberte Změnit limit rychlosti.
- GTE Large (En) modely vkládání negenerují normalizované vektory.
Limity plateb za tokeny
Následující omezení jsou relevantní pro úlohy rozhraní API základního modelu s platbami za tokeny :
- úlohy s platbami za tokeny jsou kompatibilní se standardem HIPAA.
- úlohy s platbami za tokeny nejsou kompatibilními s profilem zabezpečení dodržování předpisů.
- Modely Meta Llama 3.3 70B a GTE Large (En) jsou k dispozici v oblastech s platbou za token podporovaných v EU a USA.
- Následující modely s platbami za tokeny jsou podporovány pouze v oblastech USA podporovaných rozhraními API základního modelu:
- Meta Llama 3.1 405B Instruktáž
- DBRX – instrukce
- Mixtral-8x7B – pokyn
- BGE Large (En)
- Pokud je váš pracovní prostor v oblasti obsluhy modelů, ale ne v oblasti USA nebo EU, musí být váš pracovní prostor povolený pro zpracování dat napříč geografickou oblastí. Pokud je tato možnost povolená, vaše úloha s platbou za token se přesměruje do USA. Databricks Geo Informace o tom, které geografické oblasti zpracovávají úlohy s platbami za tokeny, najdete v tématu Databricks Designated Services.
Limity zřízené propustnosti
Následující omezení platí pro úlohy zřízené propustnosti rozhraní API základního modelu:
- Zřízená propustnost podporuje profil dodržování předpisů HIPAA a doporučuje se pro úlohy, které vyžadují certifikace dodržování předpisů.
- Pokud chcete pro zřízenou úlohu propustnosti použít architekturu modelu DBRX, musí být váš koncový bod obsluhy v jedné z následujících oblastí:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- Následující tabulka uvádí dostupnost podporovaných modelů Meta Llama 3.1, 3.2 a 3.3. Pokyny k nasazení jemně vyladěných základních modelů najdete v tématu Nasazení jemně vyladěných modelů .
- Pokud chcete nasadit model Meta Llama z
system.ai
v katalogu Unity, musíte zvolit příslušnou verzi Instruct. Základní verze modelů Meta Llama nejsou podporovány pro nasazení z katalogu Unity. Viz [Doporučeno] Nasazení základních modelů z katalogu Unity.
Varianta modelu Meta Llama | Oblasti |
---|---|
meta-llama/Llama-3.1-8B | - australiaeast - centralus - eastus - eastus2 - northcentralus - southcentralus - westus - westus2 - northeurope - westeurope - uksouth - japaneast |
meta-llama/Llama-3.1-8B-Instruct | - australiaeast - centralus - eastus - eastus2 - northcentralus - southcentralus - westus - westus2 - northeurope - westeurope - uksouth - japaneast |
meta-llama/Llama-3.1-70B | - australiaeast - centralus - eastus - eastus2 - northcentralus - southcentralus - westus - westus2 - northeurope - westeurope - uksouth - japaneast |
meta-llama/Llama-3.1-70B-Instruct | - australiaeast - centralus - eastus - eastus2 - northcentralus - southcentralus - westus - westus2 - northeurope - westeurope - uksouth - japaneast |
meta-llama/Llama-3.1-405B | - australiaeast - centralus - eastus - eastus2 - northcentralus - southcentralus - westus - westus2 - northeurope - westeurope - uksouth - japaneast |
meta-llama/Llama-3.1-405B-Instruct | - australiaeast - centralus - eastus - eastus2 - northcentralus - southcentralus - westus - westus2 - northeurope - westeurope - uksouth - japaneast |
meta-llama/Llama-3.2-1B | - australiaeast - centralus - eastus - eastus2 - northcentralus - southcentralus - westus - westus2 - northeurope - westeurope - uksouth - japaneast |
meta-llama/Llama-3.2-1B-Instruct | - australiaeast - centralus - eastus - eastus2 - northcentralus - southcentralus - westus - westus2 - northeurope - westeurope - uksouth - japaneast |
meta-llama/Llama-3.2-3B | - australiaeast - centralus - eastus - eastus2 - northcentralus - southcentralus - westus - westus2 - northeurope - westeurope - uksouth - japaneast |
meta-llama/Llama-3.2-3B-Instruct | - australiaeast - centralus - eastus - eastus2 - northcentralus - southcentralus - westus - westus2 - northeurope - westeurope - uksouth - japaneast |
meta-llama/Llama-3.3-70B | - australiaeast - centralus - eastus - eastus2 - northcentralus - southcentralus - westus - westus2 - northeurope - westeurope - uksouth - japaneast |
Dostupnost oblastí
Poznámka:
Pokud potřebujete koncový bod v nepodporované oblasti, obraťte se na svůj tým účtů Azure Databricks.
Pokud je váš pracovní prostor nasazen v oblasti, která podporuje obsluhu modelu, ale řídicí rovina se nachází v nepodporované oblasti, pracovní prostor nepodporuje obsluhu modelu. Pokud se pokusíte použít model obsluhující v tomto pracovním prostoru, zobrazí se chybová zpráva s oznámením, že váš pracovní prostor není podporovaný. Další informace získáte od týmu účtu Azure Databricks.
Další informace o regionální dostupnosti funkcí najdete v Model serving regional availability.