Nasazení modelů s využitím obsluhy modelů Mosaic AI

Článek
01/28/2025

Tento článek popisuje Mosaic AI Model Serving, řešení Databricks pro nasazování modelů AI a ML pro služby v reálném čase a dávkové inferencování.

Co je služba modelu AI od společnosti Mosaic?

Služba rozhraní AI Model Batch poskytuje jednotné rozhraní pro nasazování, řízení a dotazování modelů AI pro odvozování v reálném čase a dávkové odvozování. Každý model, který používáte, je k dispozici jako rozhraní REST API, které můžete integrovat do webové nebo klientské aplikace.

Poskytování modelů poskytuje vysoce dostupnou službu s nízkou latencí pro nasazování modelů. Služba automaticky vertikálně navyšuje nebo snižuje kapacitu tak, aby splňovala změny poptávky, což šetří náklady na infrastrukturu při optimalizaci výkonu latence. Tato funkce využívá výpočetní prostředky bez serveru. Další podrobnosti najdete na stránce s cenami služby Model Service.

Obsluha modelů nabízí jednotné rozhraní REST API a rozhraní API pro nasazení MLflow pro úlohy CRUD a dotazování. Kromě toho poskytuje jedno uživatelské rozhraní pro správu všech vašich modelů a jejich příslušných koncových bodů obsluhy. K modelům můžete přistupovat také přímo z SQL pomocí funkcí AI pro snadnou integraci do analytických pracovních postupů.

Pokud chcete začít, podívejte se na následující příručky:

Úvodní kurz, jak obsluhovat vlastní modely v Azure Databricks, najdete v tématu Kurz: Nasazení a dotazování vlastního modelu.
Úvodní kurz o dotazování základního modelu v Databricks najdete v tématu Začínáme s dotazováním LLM v Databricks.
Informace o provádění dávkových odvozování najdete v tématu Nasazení modelů pro odvozování dávek a predikce.

Modely, které můžete nasadit

Obsluha modelů podporuje odvozování v reálném čase a dávkové odvozování pro následující typy modelů:

Vlastní modely. Jedná se o modely Pythonu zabalené ve formátu MLflow. Můžou být zaregistrované buď v katalogu Unity, nebo v registru modelu pracovního prostoru. Mezi příklady patří modely scikit-learn, XGBoost, PyTorch a Hugging Face Transformer.
- Služba agenta se podporuje jako vlastní model. Viz Nasazení agenta pro aplikaci generující AI.
základní modely.
- Základní modely hostované na Databricks jako Meta Llama. Tyto modely jsou k dispozici pomocí rozhraní API modelu Foundation. Tyto modely jsou kurátorované základní architektury modelů, které podporují optimalizované odvozování. Základní modely, jako je Meta-Llama-3.3-70B-Instruct, GTE-Large a Mistral-7B, jsou k dispozici pro okamžité použití s platbami za token na bázi průběžného zúčtování a úlohy, které vyžadují záruky výkonu a jemně vyladěné varianty modelu, je možné nasadit s rezervovanou propustností.
- foundation modely hostované mimo prostředí Databricks jako GPT-4 od OpenAI. Tyto modely jsou přístupné pomocí externích modelů . Koncové body, které obsluhují tyto modely, se dají centrálně řídit z Azure Databricks, takže můžete v rámci vaší organizace zjednodušit používání a správu různých poskytovatelů LLM, jako jsou OpenAI a Anthropic.

Poznámka:

S podporovanými velkými jazykovými modely můžete pracovat pomocí AI Playgroundu. AI Playground je prostředí podobné chatu, ve kterém můžete testovat, zobrazovat výzvy a porovnávat LLM. Tato funkce je dostupná ve vašem pracovním prostoru Azure Databricks.

Proč používat obsluhu modelů?

Nasazení a dotazování libovolného modelu: Obsluha modelů poskytuje jednotné rozhraní, které umožňuje spravovat všechny modely na jednom místě a dotazovat se na ně jediným rozhraním API bez ohledu na to, jestli jsou hostované v Databricks nebo externě. Tento přístup zjednodušuje proces experimentování s modely, přizpůsobení a nasazování modelů v produkčním prostředí napříč různými cloudy a poskytovateli.
Bezpečné přizpůsobení modelů s využitím privátních dat: Služba Model Serving na platformě Data Intelligence zjednodušuje integraci funkcí a vkládání do modelů prostřednictvím nativní integrace s úložištěm funkcí Databricks a vektorovým vyhledáváním v Prostředí pro architekturu Mosaic. Pro ještě lepší přesnost a kontextové porozumění je možné modely jemně doladit s proprietárními daty a snadno nasazovat na obsluhu modelů.
Řízení a monitorování modelů: Obslužné uživatelské rozhraní umožňuje centrálně spravovat všechny koncové body modelu na jednom místě, včetně těch, které jsou externě hostované. Můžete spravovat oprávnění, sledovat a nastavit limity používání a monitorovat kvalitu všech typů modelů pomocí AI Gateway. To vám umožní demokratizovat přístup k SaaS a otevírat LLM ve vaší organizaci a zároveň zajistit, aby byly zavedeny vhodné mantinely.
Snížení nákladů s optimalizovaným odvozováním a rychlým škálováním: Služba Databricks implementovala řadu optimalizací, abyste zajistili nejlepší propustnost a latenci pro velké modely. Koncové body se automaticky škálují nahoru nebo dolů, aby splňovaly změny poptávky, což šetří náklady na infrastrukturu při optimalizaci výkonu latence. Monitorujte model obsluhující náklady.

Poznámka:

U úloh, které jsou citlivé na latenci nebo zahrnují vysoký počet dotazů za sekundu, doporučuje Databricks použít optimalizaci tras u vlastních koncových bodů obsluhy modelu. Spojte se s týmem účtu Databricks a ujistěte se, že je váš pracovní prostor povolený pro zajištění vysoké škálovatelnosti.

Zajištění spolehlivosti a zabezpečení do obsluhy modelů: Obsluha modelů je navržená pro použití v produkčním prostředí s vysokou dostupností, nízkou latencí a může podporovat více než 25 tisíc dotazů za sekundu s latencí režie menší než 50 ms. Obsluhované úlohy jsou chráněny několika vrstvami zabezpečení a zajišťují bezpečné a spolehlivé prostředí pro i nejcitlivější úlohy.

Poznámka:

Obsluha modelů neposkytuje opravy zabezpečení stávajícím imagím modelu kvůli riziku deaktivace produkčních nasazení. Nová image modelu vytvořená z nové verze modelu bude obsahovat nejnovější opravy. Další informace získáte od týmu účtu Databricks.

Požadavky

Registrovaný model v katalogu Unity nebo registru modelů pracovního prostoru.
Oprávnění k registrovaným modelům, jak je popsáno v seznamech ACL koncového bodu obsluhy
- MLflow 1,29 nebo vyšší.
Pokud používáte Azure Private Link k dodržování pravidel příchozího přenosu dat souvisejících se sítěmi nakonfigurovanými v pracovním prostoru, azure Private Link se podporuje jenom pro model obsluhující koncové body, které používají zřízenou propustnost nebo koncové body, které obsluhují vlastní modely. Viz Konfigurace privátního připojení z bezserverového výpočetního prostředí.

Povolení obsluhy modelů pro váš pracovní prostor

K povolení služby Model Serving ve vašem pracovním prostoru nejsou potřeba žádné další kroky.

Omezení a dostupnost oblastí

Služba obsluhy modelu AI v systému Mosaic ukládá výchozí limity pro zajištění spolehlivého výkonu. Viz Omezení a oblasti služby Model Serving. Pokud máte zpětnou vazbu k těmto limitům nebo koncovému bodu v nepodporované oblasti, obraťte se na svůj tým účtů Databricks.

Ochrana dat ve službě Model Serving

Databricks bere zabezpečení dat vážně. Databricks rozumí důležitosti dat, která analyzujete pomocí obsluhy modelu Mosaic AI, a implementuje následující bezpečnostní prvky, které chrání vaše data.

Každá žádost zákazníka o poskytování modelu je logicky izolovaná, ověřená a autorizovaná.
Služba rozhraní AI Model Mosaic šifruje všechna neaktivní uložená data (AES-256) a přenášená data (TLS 1.2+).

U všech placených účtů služba Mosaic AI Model Serving nepoužívá uživatelské vstupy odeslané do služby ani výstupy ze služby k trénování jakýchkoli modelů nebo ke zlepšení služeb Databricks.

Pro rozhraní API modelu Foundation Databricks, která jsou součástí poskytování služby, může Databricks dočasně zpracovávat a ukládat vstupy a výstupy za účelem prevence, zjišťování a zmírnění zneužití nebo škodlivého použití. Vaše vstupy a výstupy jsou izolované od těch ostatních zákazníků, které jsou uložené ve stejné oblasti jako váš pracovní prostor po dobu až třiceti (30) dnů a jsou přístupné pouze pro detekci a reakci na obavy z zabezpečení nebo zneužití. Rozhraní API základního modelu je určená služba Databricks, což znamená, že dodržuje hranice rezidence dat, které implementuje Databricks Geos.

Sdílet prostřednictvím

Nasazení modelů s využitím obsluhy modelů Mosaic AI

Co je služba modelu AI od společnosti Mosaic?

Modely, které můžete nasadit

Proč používat obsluhu modelů?

Požadavky

Povolení obsluhy modelů pro váš pracovní prostor

Omezení a dostupnost oblastí

Ochrana dat ve službě Model Serving

Další materiály

Váš názor

Další materiály