Sdílet prostřednictvím


Omezení a oblasti obsluhy modelů

Tento článek shrnuje omezení a dostupnost oblastí pro obsluhu modelu Mosaic AI a podporované typy koncových bodů.

Omezení prostředků a datových částí

Služba obsluhy modelu AI v systému Mosaic ukládá výchozí limity pro zajištění spolehlivého výkonu. Pokud máte k těmto limitům zpětnou vazbu, obraťte se na svůj tým účtů Databricks.

Následující tabulka shrnuje omezení pro prostředky a užitečný náklad pro koncové body poskytování modelů.

Funkce Členitost omezení
Velikost datové části Na žádost 16 MB. Pro koncové body obsluhující základní modely, externí modely, nebo AI agenty je limit 4 MB.
Velikost požadavku nebo odpovědi Na vyžádání Všechny požadavky a odpovědi nad 1 MB se nebudou protokolovat.
Dotazy za sekundu (QPS) Na pracovní prostor 200, ale můžete ho zvýšit na 25 000 nebo více tím, že se obraťte na tým účtu Databricks.
Doba trvání provádění modelu Na žádost 120 sekund
Využití paměti modelu koncového bodu procesoru Za koncový bod 4 GB
Využití paměti modelu koncového bodu GPU Na jeden koncový bod Větší nebo rovna přiřazené paměti GPU, v závislosti na velikosti zátěže GPU.
Předem definovaná souběžnost Na model a na pracovní prostor 200 konkurence. Můžete ho zvýšit kontaktováním vašeho týmu pro účet Databricks.
Režijní latence Na přání Méně než 50 milisekund
Inicializační skripty Inicializační skripty nejsou podporovány.
Omezení tarifů rozhraní API modelu Foundation (platba za token) Na pracovní prostor Pokud pro váš případ použití nejsou dostatečná následující omezení, databricks doporučuje používat zřízenou propustnost.

- Llama 3.3 70B Instruct má omezení 2 dotazy za sekundu a 1200 dotazů za hodinu.
- Llama 3.1 405B Instruct má limit 1 dotaz za sekundu a 1200 dotazů za hodinu.
– Model DBRX Instruct má limit 1 dotazu za sekundu.
- Mixtral-8x 7B Instruct má výchozí limit rychlosti 2 dotazů za sekundu.
- GTE Large (En) má limit rychlosti 150 dotazů za sekundu.
– BGE Large (En) má limit rychlosti 600 dotazů za sekundu.
Omezení rychlosti rozhraní API základního modelu (zřízená propustnost) Na pracovní prostor 200

Omezení sítě a zabezpečení

  • Koncové body obsluhy modelů jsou chráněné řízením přístupu a respektují pravidla příchozího přenosu dat související se sítí nakonfigurovaná v pracovním prostoru, jako jsou seznamy povolených IP adres a Private Link.
  • Privátní připojení (například Azure Private Link) se podporuje jenom u modelů obsluhujících koncové body, které používají zřízenou propustnost nebo koncové body, které obsluhují vlastní modely.
  • Služba modelování ve výchozím nastavení nepodporuje službu Private Link k externím koncovým bodům (jako je Azure OpenAI). Podpora této funkce se vyhodnocuje a implementuje na základě jednotlivých oblastí. Další informace získáte od týmu účtu Azure Databricks.
  • Obsluha modelů neposkytuje záplaty zabezpečení existujícím obrazům modelů kvůli riziku destabilizace produkčních nasazení. Nová image modelu vytvořená z nové verze modelu bude obsahovat nejnovější opravy. Další informace získáte od týmu účtu Databricks.

Omezení rozhraní API základního modelu

Poznámka:

V rámci poskytování rozhraní API základního modelu může Databricks zpracovávat vaše data mimo oblast, kde vaše data pocházejí, ale ne mimo relevantní zeměpisné umístění.

Pro úlohy s platbou za token a zřízenou propustností:

  • Nastavení zásad správného řízení můžou změnit jenom správci pracovního prostoru, jako jsou limity rychlosti pro koncové body rozhraní API modelu Foundation. Pokud chcete změnit limity četnosti, postupujte takto:
    1. Otevřete rozhraní služby ve vašem pracovním prostoru a zobrazte koncové body služby.
    2. V nabídce kebab v koncovém bodu rozhraní API základního modelu, který chcete upravit, vyberte Zobrazit podrobnosti.
    3. V nabídce označované jako "kebab" (ikona se třemi tečkami) na pravé horní straně stránky podrobností koncových bodů vyberte Změnit limit rychlosti.
  • GTE Large (En) modely vkládání negenerují normalizované vektory.

Limity plateb za tokeny

Následující omezení jsou relevantní pro úlohy rozhraní API základního modelu s platbami za tokeny :

  • úlohy s platbami za tokeny jsou kompatibilní se standardem HIPAA.
  • úlohy s platbami za tokeny nejsou kompatibilními s profilem zabezpečení dodržování předpisů.
  • Modely Meta Llama 3.3 70B a GTE Large (En) jsou k dispozici v oblastech s platbou za token podporovaných v EU a USA.
  • Následující modely s platbami za tokeny jsou podporovány pouze v oblastech USA podporovaných rozhraními API základního modelu:
    • Meta Llama 3.1 405B Instruktáž
    • DBRX – instrukce
    • Mixtral-8x7B – pokyn
    • BGE Large (En)
  • Pokud je váš pracovní prostor v oblasti obsluhy modelů, ale ne v oblasti USA nebo EU, musí být váš pracovní prostor povolený pro zpracování dat napříč geografickou oblastí. Pokud je tato možnost povolená, vaše úloha s platbou za token se přesměruje do USA. Databricks Geo Informace o tom, které geografické oblasti zpracovávají úlohy s platbami za tokeny, najdete v tématu Databricks Designated Services.

Limity zřízené propustnosti

Následující omezení platí pro úlohy zřízené propustnosti rozhraní API základního modelu:

  • Zřízená propustnost podporuje profil dodržování předpisů HIPAA a doporučuje se pro úlohy, které vyžadují certifikace dodržování předpisů.
  • Pokud chcete pro zřízenou úlohu propustnosti použít architekturu modelu DBRX, musí být váš koncový bod obsluhy v jedné z následujících oblastí:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • Následující tabulka uvádí dostupnost podporovaných modelů Meta Llama 3.1, 3.2 a 3.3. Pokyny k nasazení jemně vyladěných základních modelů najdete v tématu Nasazení jemně vyladěných modelů .
  • Pokud chcete nasadit model Meta Llama z system.ai v katalogu Unity, musíte zvolit příslušnou verzi Instruct. Základní verze modelů Meta Llama nejsou podporovány pro nasazení z katalogu Unity. Viz [Doporučeno] Nasazení základních modelů z katalogu Unity.
Varianta modelu Meta Llama Oblasti
meta-llama/Llama-3.1-8B - australiaeast
- centralus
- eastus
- eastus2
- northcentralus
- southcentralus
- westus
- westus2
- northeurope
- westeurope
- uksouth
- japaneast
meta-llama/Llama-3.1-8B-Instruct - australiaeast
- centralus
- eastus
- eastus2
- northcentralus
- southcentralus
- westus
- westus2
- northeurope
- westeurope
- uksouth
- japaneast
meta-llama/Llama-3.1-70B - australiaeast
- centralus
- eastus
- eastus2
- northcentralus
- southcentralus
- westus
- westus2
- northeurope
- westeurope
- uksouth
- japaneast
meta-llama/Llama-3.1-70B-Instruct - australiaeast
- centralus
- eastus
- eastus2
- northcentralus
- southcentralus
- westus
- westus2
- northeurope
- westeurope
- uksouth
- japaneast
meta-llama/Llama-3.1-405B - australiaeast
- centralus
- eastus
- eastus2
- northcentralus
- southcentralus
- westus
- westus2
- northeurope
- westeurope
- uksouth
- japaneast
meta-llama/Llama-3.1-405B-Instruct - australiaeast
- centralus
- eastus
- eastus2
- northcentralus
- southcentralus
- westus
- westus2
- northeurope
- westeurope
- uksouth
- japaneast
meta-llama/Llama-3.2-1B - australiaeast
- centralus
- eastus
- eastus2
- northcentralus
- southcentralus
- westus
- westus2
- northeurope
- westeurope
- uksouth
- japaneast
meta-llama/Llama-3.2-1B-Instruct - australiaeast
- centralus
- eastus
- eastus2
- northcentralus
- southcentralus
- westus
- westus2
- northeurope
- westeurope
- uksouth
- japaneast
meta-llama/Llama-3.2-3B - australiaeast
- centralus
- eastus
- eastus2
- northcentralus
- southcentralus
- westus
- westus2
- northeurope
- westeurope
- uksouth
- japaneast
meta-llama/Llama-3.2-3B-Instruct - australiaeast
- centralus
- eastus
- eastus2
- northcentralus
- southcentralus
- westus
- westus2
- northeurope
- westeurope
- uksouth
- japaneast
meta-llama/Llama-3.3-70B - australiaeast
- centralus
- eastus
- eastus2
- northcentralus
- southcentralus
- westus
- westus2
- northeurope
- westeurope
- uksouth
- japaneast

Dostupnost oblastí

Poznámka:

Pokud potřebujete koncový bod v nepodporované oblasti, obraťte se na svůj tým účtů Azure Databricks.

Pokud je váš pracovní prostor nasazen v oblasti, která podporuje obsluhu modelu, ale řídicí rovina se nachází v nepodporované oblasti, pracovní prostor nepodporuje obsluhu modelu. Pokud se pokusíte použít model obsluhující v tomto pracovním prostoru, zobrazí se chybová zpráva s oznámením, že váš pracovní prostor není podporovaný. Další informace získáte od týmu účtu Azure Databricks.

Další informace o regionální dostupnosti funkcí najdete v Model serving regional availability.