MLflow pro generativní AI agenta a životní cyklus modelu ML
Tento článek popisuje, jak se MLflow v Databricks používá k vývoji vysoce kvalitních agentů a modelů strojového učení generující AI.
Poznámka
Pokud teprve začínáte s Azure Databricks, zvažte možnost vyzkoušet MLflow na Databricks Community Edition.
Co je MLflow?
MLflow je opensourcová platforma pro vývoj modelů a generování aplikací umělé inteligence. Má následující primární součásti:
- Sledování: Umožňuje sledovat experimenty a zaznamenávat a porovnávat parametry a výsledky.
- Modely: Umožňuje spravovat a nasazovat modely z různých knihoven ML do různých platforem pro obsluhu a odvozování modelů.
- Registr modelů: Umožňuje spravovat proces nasazení modelu z přípravného do produkčního prostředí s možnostmi správy verzí modelu a poznámek.
- Vyhodnocení a trasování agentů AI: Umožňuje vyvíjet vysoce kvalitní agenty AI tím, že vám pomůže porovnat, vyhodnotit a řešit potíže s agenty.
MLflow podporuje Javu, Python, R a rozhraní REST API.
MLflow spravovaný službou Databricks
Databricks poskytuje plně spravovanou a hostované verzi MLflow, která je založená na opensourcovém prostředí, aby byla robustnější a škálovatelnější pro podnikové použití.
Následující diagram znázorňuje integraci Databricks s MLflow za účelem trénování a nasazování modelů strojového učení.
MLflow spravovaný službou Databricks je založený na katalogu Unity a v Cloud Data Lake za účelem sjednocení všech vašich dat a prostředků AI v životním cyklu ML:
- úložiště funkcí : automatické vyhledávání funkcí Databricks zjednodušuje integraci a snižuje chyby.
- Trénování modelů: Pomocí Umělé inteligence (AI) vytrénujte modely nebo dolaďte základní modely.
- sledování: MLflow sleduje trénování zaznamenáváním parametrů, metrik a artefaktů k vyhodnocení a porovnání výkonu modelu.
- Registr modelů : Registr modelů MLflow, integrovaný s katalogem Unity, centralizuje modely a artefakty AI.
- Nasazení modelu: Mosaic AI Model Serving nasazuje modely do koncového bodu REST API.
- monitorování : Obsluha modelu AI v systému Mosaic automaticky zaznamenává požadavky a odpovědi na monitorování a ladění modelů. MLflow rozšiřuje tato data o sledovací data pro každý požadavek.
Trénování modelů
Modely MLflow jsou jádrem vývoje AI a ML v Databricks. Modely MLflow jsou standardizovaný formát pro balení modelů strojového učení a generování agentů AI. Standardizovaný formát zajišťuje, aby modely a agenti mohli používat podřízené nástroje a pracovní postupy v Databricks.
- Dokumentace k MLflow - modely.
Databricks poskytuje funkce, které vám pomůžou trénovat různé druhy modelů ML.
- Trénování modelů umělé inteligence pomocíMosaic AI .
Sledování experimentů
Databricks používá experimenty MLflow jako organizační jednotky ke sledování práce při vývoji modelů.
Sledování experimentů umožňuje protokolovat a spravovat parametry, metriky, artefakty a verze kódu během trénování strojového učení a vývoje agentů. Uspořádání protokolů do experimentů a běhů umožňuje snadněji porovnávat modely, analyzovat výkon a iterovat.
- Sledování experimentů pomocíDatabricks.
- Podívejte se do dokumentace MLflow pro obecné informace o spuštěních a sledování experimentů.
Registr modelů s katalogem Unity
Registr modelů MLflow je centralizované úložiště modelů, uživatelské rozhraní a sada rozhraní API pro správu procesu nasazení modelu.
Databricks integruje registr modelů s katalogem Unity, aby poskytoval centralizované zásady správného řízení pro modely. Integrace katalogu Unity umožňuje přístup k modelům napříč pracovními prostory, sledování rodokmenu modelů a zjišťování modelů pro opakované použití.
- Správa modelů pomocí katalogu Databricks Unity.
- Obecné informace o registru modelůnajdete v dokumentaci k MLflow.
Obsluha modelu
Služba Databricks Model Serving je úzce integrovaná s registrem modelů MLflow a poskytuje jednotné, škálovatelné rozhraní pro nasazování, řízení a dotazování modelů AI. Každý model, který používáte, je k dispozici jako rozhraní REST API, které můžete integrovat do webových nebo klientských aplikací.
Přestože se jedná o odlišné komponenty, služba Model Obsluha silně spoléhá na registr modelů MLflow, který zpracovává správu verzí modelu, správu závislostí, ověřování a zásady správného řízení.
Vývoj a vyhodnocení agenta AI
Pro vývoj agentů AI se Databricks integruje s MLflow podobně jako vývoj modelů ML. Existuje však několik klíčových rozdílů:
- Pokud chcete vytvořit agenty AI v Databricks, použijte Mosaic AI Agent Framework, který využívá MLflow ke sledování kódu agenta, metrik výkonu a sledování agentů.
- Pokud chcete vyhodnotit agenty v Databricks, použijte hodnocení agenta Mosaic AI , které spoléhá na MLflow ke sledování výsledků vyhodnocení.
- Sledování MLflow pro agenty zahrnuje také trasování MLflow. Trasování MLflow umožňuje zobrazit podrobné informace o provádění služeb vašeho agenta. Trasování zaznamenává vstupy, výstupy a metadata přidružená ke každému přechodnému kroku požadavku a umožňuje rychle najít zdroj neočekávaného chování v agentech.
Následující diagram znázorňuje integraci Databricks s MLflow za účelem vytvoření a nasazení agentů AI.
MLflow spravovaný službou Databricks je založen na katalogu Unity a v Cloud Data Lake, aby se všechny vaše data a prostředky AI sjednotily v životním cyklu aplikace GenAI:
- Vector & úložiště charakteristik: automatizované vyhledávání vektorů a charakteristik Databricks zjednodušuje integraci a snižuje chyby.
- Vytváření a hodnocení agentů AI: Rámec Mosaic AI Agent a Hodnocení agentů vám pomáhají vytvářet agenty a hodnotit jejich výstup.
- sledování trasování &: trasování MLflow zaznamenává podrobné informace o spuštění agenta pro lepší pozorovatelnost GenAI.
- Registr modelů : Registr modelů MLflow, integrovaný s katalogem Unity, centralizuje modely a artefakty AI.
- Nasazení modelu: Mosaic AI Model Serving nasazuje modely do koncového bodu REST API.
- monitorování : MLflow automaticky zaznamenává požadavky a odpovědi na monitorování a ladění modelů.
Open source a funkce MLflow spravované službou Databricks
Obecné koncepty, rozhraní API a funkce MLflow sdílené mezi opensourcovými verzemi a verzemi spravovanými službou Databricks najdete v dokumentaci k MLflow. Funkce, které jsou exkluzivní pro MLflow spravované službou Databricks, najdete v dokumentaci k Databricks.
Následující tabulka uvádí hlavní rozdíly mezi opensourcovým MLflow a MLflow spravovaným databricks a obsahuje odkazy na dokumentaci, které vám pomůžou získat další informace:
Funkce | Dostupnost v open source MLflow | Dostupnost v MLflow spravovaném službou Databricks |
---|---|---|
Bezpečnost | Uživatel musí zadat vlastní vrstvu zásad správného řízení zabezpečení. | zabezpečení na podnikové úrovni Databricks |
Zotavení po havárii | Nedostupný | zotavení po havárii Databricks |
Sledování experimentů | API pro sledování MLflow | Rozhraní API pro sledování MLflow integrované s Databricks pro pokročilé sledování experimentů |
Registr modelů | Registr modelů MLflow | registr modelů MLflow integrovaný s katalogem Databricks Unity |
Integrace katalogu Unity | Opensourcová integrace s katalogem Unity | Databricks Unity katalogu |
Nasazení modelu | Integrace nakonfigurované uživatelem s externími obslužnými řešeními (SageMaker, Kubernetes, kontejnerové služby atd.) | Databricks Služby modelu a externí řešení pro poskytování služeb |
Agenti umělé inteligence | MLflow LLM vývoj | Vývoj MLflow LLM integrovaný s Mosaic AI Agent Framework a Agent Evaluation |
Šifrování | Nedostupný | Šifrování pomocí klíčů spravovaných zákazníkem |