Sdílet prostřednictvím


Nasazení modelů s využitím obsluhy modelů Mosaic AI

Tento článek popisuje Mosaic AI Model Serving, řešení Databricks pro nasazování modelů AI a ML pro služby v reálném čase a dávkové inferencování.

Co je služba modelu AI od společnosti Mosaic?

Služba rozhraní AI Model Batch poskytuje jednotné rozhraní pro nasazování, řízení a dotazování modelů AI pro odvozování v reálném čase a dávkové odvozování. Každý model, který používáte, je k dispozici jako rozhraní REST API, které můžete integrovat do webové nebo klientské aplikace.

Poskytování modelů poskytuje vysoce dostupnou službu s nízkou latencí pro nasazování modelů. Služba automaticky vertikálně navyšuje nebo snižuje kapacitu tak, aby splňovala změny poptávky, což šetří náklady na infrastrukturu při optimalizaci výkonu latence. Tato funkce využívá výpočetní prostředky bez serveru. Další podrobnosti najdete na stránce s cenami služby Model Service.

Obsluha modelů nabízí jednotné rozhraní REST API a rozhraní API pro nasazení MLflow pro úlohy CRUD a dotazování. Kromě toho poskytuje jedno uživatelské rozhraní pro správu všech vašich modelů a jejich příslušných koncových bodů obsluhy. K modelům můžete přistupovat také přímo z SQL pomocí funkcí AI pro snadnou integraci do analytických pracovních postupů.

Pokud chcete začít, podívejte se na následující příručky:

Modely, které můžete nasadit

Obsluha modelů podporuje odvozování v reálném čase a dávkové odvozování pro následující typy modelů:

  • Vlastní modely. Jedná se o modely Pythonu zabalené ve formátu MLflow. Můžou být zaregistrované buď v katalogu Unity, nebo v registru modelu pracovního prostoru. Mezi příklady patří modely scikit-learn, XGBoost, PyTorch a Hugging Face Transformer.
  • základní modely.
    • Základní modely hostované na Databricks jako Meta Llama. Tyto modely jsou k dispozici pomocí rozhraní API modelu Foundation. Tyto modely jsou kurátorované základní architektury modelů, které podporují optimalizované odvozování. Základní modely, jako je Meta-Llama-3.3-70B-Instruct, GTE-Large a Mistral-7B, jsou k dispozici pro okamžité použití s platbami za token na bázi průběžného zúčtování a úlohy, které vyžadují záruky výkonu a jemně vyladěné varianty modelu, je možné nasadit s rezervovanou propustností.
    • foundation modely hostované mimo prostředí Databricks jako GPT-4 od OpenAI. Tyto modely jsou přístupné pomocí externích modelů . Koncové body, které obsluhují tyto modely, se dají centrálně řídit z Azure Databricks, takže můžete v rámci vaší organizace zjednodušit používání a správu různých poskytovatelů LLM, jako jsou OpenAI a Anthropic.

Poznámka:

S podporovanými velkými jazykovými modely můžete pracovat pomocí AI Playgroundu. AI Playground je prostředí podobné chatu, ve kterém můžete testovat, zobrazovat výzvy a porovnávat LLM. Tato funkce je dostupná ve vašem pracovním prostoru Azure Databricks.

Proč používat obsluhu modelů?

  • Nasazení a dotazování libovolného modelu: Obsluha modelů poskytuje jednotné rozhraní, které umožňuje spravovat všechny modely na jednom místě a dotazovat se na ně jediným rozhraním API bez ohledu na to, jestli jsou hostované v Databricks nebo externě. Tento přístup zjednodušuje proces experimentování s modely, přizpůsobení a nasazování modelů v produkčním prostředí napříč různými cloudy a poskytovateli.
  • Bezpečné přizpůsobení modelů s využitím privátních dat: Služba Model Serving na platformě Data Intelligence zjednodušuje integraci funkcí a vkládání do modelů prostřednictvím nativní integrace s úložištěm funkcí Databricks a vektorovým vyhledáváním v Prostředí pro architekturu Mosaic. Pro ještě lepší přesnost a kontextové porozumění je možné modely jemně doladit s proprietárními daty a snadno nasazovat na obsluhu modelů.
  • Řízení a monitorování modelů: Obslužné uživatelské rozhraní umožňuje centrálně spravovat všechny koncové body modelu na jednom místě, včetně těch, které jsou externě hostované. Můžete spravovat oprávnění, sledovat a nastavit limity používání a monitorovat kvalitu všech typů modelů pomocí AI Gateway. To vám umožní demokratizovat přístup k SaaS a otevírat LLM ve vaší organizaci a zároveň zajistit, aby byly zavedeny vhodné mantinely.
  • Snížení nákladů s optimalizovaným odvozováním a rychlým škálováním: Služba Databricks implementovala řadu optimalizací, abyste zajistili nejlepší propustnost a latenci pro velké modely. Koncové body se automaticky škálují nahoru nebo dolů, aby splňovaly změny poptávky, což šetří náklady na infrastrukturu při optimalizaci výkonu latence. Monitorujte model obsluhující náklady.

Poznámka:

U úloh, které jsou citlivé na latenci nebo zahrnují vysoký počet dotazů za sekundu, doporučuje Databricks použít optimalizaci tras u vlastních koncových bodů obsluhy modelu. Spojte se s týmem účtu Databricks a ujistěte se, že je váš pracovní prostor povolený pro zajištění vysoké škálovatelnosti.

  • Zajištění spolehlivosti a zabezpečení do obsluhy modelů: Obsluha modelů je navržená pro použití v produkčním prostředí s vysokou dostupností, nízkou latencí a může podporovat více než 25 tisíc dotazů za sekundu s latencí režie menší než 50 ms. Obsluhované úlohy jsou chráněny několika vrstvami zabezpečení a zajišťují bezpečné a spolehlivé prostředí pro i nejcitlivější úlohy.

Poznámka:

Obsluha modelů neposkytuje opravy zabezpečení stávajícím imagím modelu kvůli riziku deaktivace produkčních nasazení. Nová image modelu vytvořená z nové verze modelu bude obsahovat nejnovější opravy. Další informace získáte od týmu účtu Databricks.

Požadavky

Povolení obsluhy modelů pro váš pracovní prostor

K povolení služby Model Serving ve vašem pracovním prostoru nejsou potřeba žádné další kroky.

Omezení a dostupnost oblastí

Služba obsluhy modelu AI v systému Mosaic ukládá výchozí limity pro zajištění spolehlivého výkonu. Viz Omezení a oblasti služby Model Serving. Pokud máte zpětnou vazbu k těmto limitům nebo koncovému bodu v nepodporované oblasti, obraťte se na svůj tým účtů Databricks.

Ochrana dat ve službě Model Serving

Databricks bere zabezpečení dat vážně. Databricks rozumí důležitosti dat, která analyzujete pomocí obsluhy modelu Mosaic AI, a implementuje následující bezpečnostní prvky, které chrání vaše data.

  • Každá žádost zákazníka o poskytování modelu je logicky izolovaná, ověřená a autorizovaná.
  • Služba rozhraní AI Model Mosaic šifruje všechna neaktivní uložená data (AES-256) a přenášená data (TLS 1.2+).

U všech placených účtů služba Mosaic AI Model Serving nepoužívá uživatelské vstupy odeslané do služby ani výstupy ze služby k trénování jakýchkoli modelů nebo ke zlepšení služeb Databricks.

Pro rozhraní API modelu Foundation Databricks, která jsou součástí poskytování služby, může Databricks dočasně zpracovávat a ukládat vstupy a výstupy za účelem prevence, zjišťování a zmírnění zneužití nebo škodlivého použití. Vaše vstupy a výstupy jsou izolované od těch ostatních zákazníků, které jsou uložené ve stejné oblasti jako váš pracovní prostor po dobu až třiceti (30) dnů a jsou přístupné pouze pro detekci a reakci na obavy z zabezpečení nebo zneužití. Rozhraní API základního modelu je určená služba Databricks, což znamená, že dodržuje hranice rezidence dat, které implementuje Databricks Geos.

Další materiály