Sdílet prostřednictvím


Omezení a oblasti obsluhy modelů

Tento článek shrnuje omezení a dostupnost oblastí pro obsluhu modelu Mosaic AI a podporované typy koncových bodů.

Omezení prostředků a datových částí

Služba obsluhy modelu AI v systému Mosaic ukládá výchozí limity pro zajištění spolehlivého výkonu. Pokud máte k těmto limitům zpětnou vazbu, obraťte se na svůj tým účtů Databricks.

Následující tabulka shrnuje omezení prostředků a datové části pro koncové body obsluhy modelu.

Funkce Členitost omezení
Velikost datové části Na požadavek 16 MB. Pro koncové body obsluhující základní modely, externí modely, nebo AI agenty je limit 4 MB.
Velikost požadavku nebo odpovědi Na požadavek Všechny požadavky a odpovědi nad 1 MB se nebudou protokolovat.
Dotazy za sekundu (QPS) Na pracovní prostor 200, ale můžete ho zvýšit na 25 000 nebo více tím, že se obraťte na tým účtu Databricks.
Doba trvání provádění modelu Na požadavek 120 sekund
Využití paměti modelu koncového bodu procesoru Na koncový bod 4 GB
Využití paměti modelu koncového bodu GPU Na koncový bod Větší než nebo rovno přiřazené paměti GPU závisí na velikosti úlohy GPU.
Zřízená souběžnost Na model a na pracovní prostor 200 souběžnosti. Můžete ho zvýšit kontaktováním týmu účtu Databricks.
Režijní latence Na požadavek Méně než 50 milisekund
Inicializační skripty Inicializační skripty nejsou podporovány.
Omezení sazeb rozhraní API základního modelu (pay-per-token) Na pracovní prostor Pokud pro váš případ použití nejsou dostatečná následující omezení, databricks doporučuje používat zřízenou propustnost.

- Llama 3,3 70B Instruovat má limit 2 dotazy za sekundu a 1200 dotazů za hodinu.
- Llama 3.1 405B Instruct má limit 1 dotaz za sekundu a 1200 dotazů za hodinu.
– Model DBRX Instruct má limit 1 dotazu za sekundu.
- Mixtral-8x 7B Instruct má výchozí limit rychlosti 2 dotazů za sekundu.
- GTE Large (En) má limit rychlosti 150 dotazů za sekundu.
– BGE Large (En) má limit rychlosti 600 dotazů za sekundu.
Omezení rychlosti rozhraní API základního modelu (zřízená propustnost) Na pracovní prostor 200

Omezení sítě a zabezpečení

  • Koncové body obsluhy modelů jsou chráněné řízením přístupu a respektují pravidla příchozího přenosu dat související se sítí nakonfigurovaná v pracovním prostoru, jako jsou seznamy povolených IP adres a Private Link.
  • Privátní připojení (například Azure Private Link) se podporuje jenom u modelů obsluhujících koncové body, které používají zřízenou propustnost nebo koncové body, které obsluhují vlastní modely.
  • Služba modelování ve výchozím nastavení nepodporuje službu Private Link k externím koncovým bodům (jako je Azure OpenAI). Podpora této funkce se vyhodnocuje a implementuje na základě jednotlivých oblastí. Další informace získáte od týmu účtu Azure Databricks.
  • Obsluha modelů neposkytuje opravy zabezpečení stávajícím imagím modelu kvůli riziku deaktivace produkčních nasazení. Nová image modelu vytvořená z nové verze modelu bude obsahovat nejnovější opravy. Další informace získáte od týmu účtu Databricks.

Omezení rozhraní API základního modelu

Poznámka:

V rámci poskytování rozhraní API základního modelu může Databricks zpracovávat vaše data mimo oblast a poskytovatele cloudu, odkud data pocházejí.

Poznámka:

V rámci poskytování rozhraní API základního modelu může Databricks zpracovávat vaše data mimo oblast, kde vaše data pocházejí, ale ne mimo relevantní zeměpisné umístění.

U úloh s průběžnými platbami a zřízenou propustností:

  • Nastavení zásad správného řízení můžou změnit jenom správci pracovního prostoru, jako jsou limity rychlosti pro koncové body rozhraní API modelu Foundation. Pokud chcete změnit limity četnosti, postupujte takto:
    1. Otevřete uživatelské rozhraní obsluhy v pracovním prostoru a zobrazte koncové body obsluhy.
    2. V nabídce kebab v koncovém bodu rozhraní API základního modelu, který chcete upravit, vyberte Zobrazit podrobnosti.
    3. V nabídce kebab na pravé horní straně stránky podrobností koncových bodů vyberte Změnit limit rychlosti.
  • GTE Large (En) modely vkládání negenerují normalizované vektory.

Limity plateb za tokeny

Následující omezení jsou relevantní pro úlohy rozhraní API základního modelu s platbami za tokeny :

  • Úlohy s platbami za tokeny nejsou kompatibilní se standardem HIPAA ani s dodržováním předpisů.
  • modely Meta Llama 3.3 70B a GTE Large (En) jsou k dispozici v eu a oblastech podporovaných v EU a USA s průběžným platbami.
  • Následující modely s platbami za tokeny jsou podporovány pouze v oblastech USA podporovaných rozhraními API základního modelu:
    • Meta Llama 3.1 405B Pokyn
    • DbRX – pokyn
    • Mixtral-8x7B – pokyn
    • BGE Large (En)
  • Pokud je váš pracovní prostor v oblasti obsluhy modelů, ale ne v oblasti USA nebo EU, musí být váš pracovní prostor povolený pro zpracování dat napříč geografickou oblastí. Pokud je tato možnost povolená, vaše úloha s platbou za token se přesměruje do USA. Databricks Geo Informace o tom, které geografické oblasti zpracovávají úlohy s platbami za tokeny, najdete v tématu Databricks Designated Services.

Limity zřízené propustnosti

Následující omezení platí pro úlohy zřízené propustnosti rozhraní API základního modelu:

  • Zřízená propustnost podporuje profil dodržování předpisů HIPAA a doporučuje se pro úlohy, které vyžadují certifikace dodržování předpisů.
  • Pokud chcete pro zřízenou úlohu propustnosti použít architekturu modelu DBRX, musí být váš koncový bod obsluhy v jedné z následujících oblastí:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • Následující tabulka uvádí dostupnost podporovaných modelů Meta Llama 3.1, 3.2 a 3.3. Pokyny k nasazení jemně vyladěných základních modelů najdete v tématu Nasazení jemně vyladěných modelů .
Varianta modelu Meta Llama Oblasti
meta-llama/Llama-3.1-8B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-8B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-70B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-405B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-405B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-1B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.3-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2

Limity zřízené propustnosti

Následující omezení platí pro úlohy zřízené propustnosti rozhraní API základního modelu:

Dostupnost oblastí

Poznámka:

Pokud potřebujete koncový bod v nepodporované oblasti, obraťte se na svůj tým účtů Azure Databricks.

Pokud je váš pracovní prostor nasazený v oblasti, která podporuje obsluhu modelu, ale obsluhuje ji řídicí rovina v nepodporované oblasti, pracovní prostor nepodporuje obsluhu modelu. Pokud se pokusíte použít model obsluhující v tomto pracovním prostoru, zobrazí se chybová zpráva s oznámením, že váš pracovní prostor není podporovaný. Další informace získáte od týmu účtu Azure Databricks.

Další informace o regionální dostupnostifunkcích