Omezení a oblasti obsluhy modelů
Tento článek shrnuje omezení a dostupnost oblastí pro obsluhu modelu Mosaic AI a podporované typy koncových bodů.
Omezení prostředků a datových částí
Služba obsluhy modelu AI v systému Mosaic ukládá výchozí limity pro zajištění spolehlivého výkonu. Pokud máte k těmto limitům zpětnou vazbu, obraťte se na svůj tým účtů Databricks.
Následující tabulka shrnuje omezení prostředků a datové části pro koncové body obsluhy modelu.
Funkce | Členitost | omezení |
---|---|---|
Velikost datové části | Na požadavek | 16 MB. Pro koncové body obsluhující základní modely, externí modely, nebo AI agenty je limit 4 MB. |
Velikost požadavku nebo odpovědi | Na požadavek | Všechny požadavky a odpovědi nad 1 MB se nebudou protokolovat. |
Dotazy za sekundu (QPS) | Na pracovní prostor | 200, ale můžete ho zvýšit na 25 000 nebo více tím, že se obraťte na tým účtu Databricks. |
Doba trvání provádění modelu | Na požadavek | 120 sekund |
Využití paměti modelu koncového bodu procesoru | Na koncový bod | 4 GB |
Využití paměti modelu koncového bodu GPU | Na koncový bod | Větší než nebo rovno přiřazené paměti GPU závisí na velikosti úlohy GPU. |
Zřízená souběžnost | Na model a na pracovní prostor | 200 souběžnosti. Můžete ho zvýšit kontaktováním týmu účtu Databricks. |
Režijní latence | Na požadavek | Méně než 50 milisekund |
Inicializační skripty | Inicializační skripty nejsou podporovány. | |
Omezení sazeb rozhraní API základního modelu (pay-per-token) | Na pracovní prostor | Pokud pro váš případ použití nejsou dostatečná následující omezení, databricks doporučuje používat zřízenou propustnost. - Llama 3,3 70B Instruovat má limit 2 dotazy za sekundu a 1200 dotazů za hodinu. - Llama 3.1 405B Instruct má limit 1 dotaz za sekundu a 1200 dotazů za hodinu. – Model DBRX Instruct má limit 1 dotazu za sekundu. - Mixtral-8x 7B Instruct má výchozí limit rychlosti 2 dotazů za sekundu. - GTE Large (En) má limit rychlosti 150 dotazů za sekundu. – BGE Large (En) má limit rychlosti 600 dotazů za sekundu. |
Omezení rychlosti rozhraní API základního modelu (zřízená propustnost) | Na pracovní prostor | 200 |
Omezení sítě a zabezpečení
- Koncové body obsluhy modelů jsou chráněné řízením přístupu a respektují pravidla příchozího přenosu dat související se sítí nakonfigurovaná v pracovním prostoru, jako jsou seznamy povolených IP adres a Private Link.
- Privátní připojení (například Azure Private Link) se podporuje jenom u modelů obsluhujících koncové body, které používají zřízenou propustnost nebo koncové body, které obsluhují vlastní modely.
- Služba modelování ve výchozím nastavení nepodporuje službu Private Link k externím koncovým bodům (jako je Azure OpenAI). Podpora této funkce se vyhodnocuje a implementuje na základě jednotlivých oblastí. Další informace získáte od týmu účtu Azure Databricks.
- Obsluha modelů neposkytuje opravy zabezpečení stávajícím imagím modelu kvůli riziku deaktivace produkčních nasazení. Nová image modelu vytvořená z nové verze modelu bude obsahovat nejnovější opravy. Další informace získáte od týmu účtu Databricks.
Omezení rozhraní API základního modelu
Poznámka:
V rámci poskytování rozhraní API základního modelu může Databricks zpracovávat vaše data mimo oblast a poskytovatele cloudu, odkud data pocházejí.
Poznámka:
V rámci poskytování rozhraní API základního modelu může Databricks zpracovávat vaše data mimo oblast, kde vaše data pocházejí, ale ne mimo relevantní zeměpisné umístění.
U úloh s průběžnými platbami a zřízenou propustností:
- Nastavení zásad správného řízení můžou změnit jenom správci pracovního prostoru, jako jsou limity rychlosti pro koncové body rozhraní API modelu Foundation. Pokud chcete změnit limity četnosti, postupujte takto:
- Otevřete uživatelské rozhraní obsluhy v pracovním prostoru a zobrazte koncové body obsluhy.
- V nabídce kebab v koncovém bodu rozhraní API základního modelu, který chcete upravit, vyberte Zobrazit podrobnosti.
- V nabídce kebab na pravé horní straně stránky podrobností koncových bodů vyberte Změnit limit rychlosti.
- GTE Large (En) modely vkládání negenerují normalizované vektory.
Limity plateb za tokeny
Následující omezení jsou relevantní pro úlohy rozhraní API základního modelu s platbami za tokeny :
- Úlohy s platbami za tokeny nejsou kompatibilní se standardem HIPAA ani s dodržováním předpisů.
- modely Meta Llama 3.3 70B a GTE Large (En) jsou k dispozici v eu a oblastech podporovaných v EU a USA s průběžným platbami.
- Následující modely s platbami za tokeny jsou podporovány pouze v oblastech USA podporovaných rozhraními API základního modelu:
- Meta Llama 3.1 405B Pokyn
- DbRX – pokyn
- Mixtral-8x7B – pokyn
- BGE Large (En)
- Pokud je váš pracovní prostor v oblasti obsluhy modelů, ale ne v oblasti USA nebo EU, musí být váš pracovní prostor povolený pro zpracování dat napříč geografickou oblastí. Pokud je tato možnost povolená, vaše úloha s platbou za token se přesměruje do USA. Databricks Geo Informace o tom, které geografické oblasti zpracovávají úlohy s platbami za tokeny, najdete v tématu Databricks Designated Services.
Limity zřízené propustnosti
Následující omezení platí pro úlohy zřízené propustnosti rozhraní API základního modelu:
- Zřízená propustnost podporuje profil dodržování předpisů HIPAA a doporučuje se pro úlohy, které vyžadují certifikace dodržování předpisů.
- Pokud chcete pro zřízenou úlohu propustnosti použít architekturu modelu DBRX, musí být váš koncový bod obsluhy v jedné z následujících oblastí:
eastus
eastus2
westus
centralus
westeurope
northeurope
australiaeast
canadacentral
brazilsouth
- Následující tabulka uvádí dostupnost podporovaných modelů Meta Llama 3.1, 3.2 a 3.3. Pokyny k nasazení jemně vyladěných základních modelů najdete v tématu Nasazení jemně vyladěných modelů .
Varianta modelu Meta Llama | Oblasti |
---|---|
meta-llama/Llama-3.1-8B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-8B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-70B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.1-405B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.1-405B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
meta-llama/Llama-3.2-1B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-1B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-3B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.2-3B-Instruct | - centralus - eastus - eastus2 - northcentralus - westus - westus2 - northeurope - westeurope |
meta-llama/Llama-3.3-70B | - centralus - eastus - eastus2 - northcentralus - westus - westus2 |
Limity zřízené propustnosti
Následující omezení platí pro úlohy zřízené propustnosti rozhraní API základního modelu:
Zřízená propustnost podporuje profil dodržování předpisů HIPAA a doporučuje se pro úlohy, které vyžadují certifikace dodržování předpisů.
- GTE Large (En) modely vkládání negenerují normalizované vektory.
- Následující tabulka uvádí dostupnost podporovaných modelů Meta Llama 3.1, 3.2 a 3.3. Pokyny k nasazení jemně vyladěných základních modelů najdete v tématu Nasazení jemně vyladěných modelů .
Varianta modelu Meta Llama Oblasti meta-llama/Llama-3.1-8B-Instruct - us-east1
-us-central1
meta-llama/Llama-3.1-70B-Instruct - us-east1
-us-central1
meta-llama/Llama-3.2-1B-Instruct - us-east1
-us-central1
meta-llama/Llama-3.2-3B-Instruct - us-east1
-us-central1
Dostupnost oblastí
Poznámka:
Pokud potřebujete koncový bod v nepodporované oblasti, obraťte se na svůj tým účtů Azure Databricks.
Pokud je váš pracovní prostor nasazený v oblasti, která podporuje obsluhu modelu, ale obsluhuje ji řídicí rovina v nepodporované oblasti, pracovní prostor nepodporuje obsluhu modelu. Pokud se pokusíte použít model obsluhující v tomto pracovním prostoru, zobrazí se chybová zpráva s oznámením, že váš pracovní prostor není podporovaný. Další informace získáte od týmu účtu Azure Databricks.