Sdílet prostřednictvím


Správa AI – proces správy AI

Tento článek popisuje organizační proces správy úloh AI. Poskytuje doporučení pro správu úloh umělé inteligence od vývoje, nasazení a provozu. Efektivní správa AI vyžaduje strukturovaný přístup od vývoje prostřednictvím nasazení a průběžného provozu. Podniky potřebují standardizované postupy a pravidelné monitorování, aby se zabránilo problémům, jako jsou posuny dat a modelů, a zajistily tak přesnost a spolehlivost umělé inteligence v průběhu času.

Diagram znázorňující proces přechodu na AI: Strategie AI, Plán AI, AI Ready, Řízení AI, Správa AI a Zabezpečená AI

Správa operací AI

Správa operací AI zajišťuje viditelnost a konzistenci v průběhu životního cyklu umělé inteligence. Přijetím provozních architektur, jako je MLOps, vytvářením prostředí sandboxu a vytvořením kanálů CI/CD, můžete dohlížet na vývoj, testování a nasazení.

  • Přijměte provozní rámec umělé inteligence. Implementujte architektury MLOps (operace strojového učení) pro tradiční pracovní postupy strojového učení a GenAIOps pro generování úloh umělé inteligence. Tyto provozní architektury uspořádají kompletní cyklus vývoje umělé inteligence. Každá architektura ovlivňuje přístup a nástroje týmu úloh. Další informace naleznete v tématu MLOps a GenAIOps.

  • Standardizace vývojových nástrojů umělé inteligence Definujte a standardizujte použití sad SDK a rozhraní API pro konzistenci napříč vývojovými týmy. Nástroje, jako je Sada Azure SDK pro úlohy AI, poskytují knihovny a rozhraní API optimalizovaná pro škálování modelů AI a jejich integraci do aplikací. Pro generování umělé inteligence standardizujte platformu a orchestrátory AI, jako jsou sémantické jádro, LangChain a tok výzvy.

  • K experimentování s AI použijte sandboxové prostředí. K experimentování s modelem AI použijte sandboxové prostředí. Chcete konzistenci napříč vývojovými, testovacími a prod prostředími. Prostředí sandboxu by se tedy mělo lišit od vývojových, testovacích a produkčních prostředí v životním cyklu vývoje AI. Pokud změníte modely nasazení a zásad správného řízení mezi vývojovými, testovacími a produžovanými prostředími, může skrýt a zavést zásadní změny.

  • Vytvořte kontinuální integraci a kanály průběžného doručování pro nasazení. Ujistěte se, že datové kanály pokrývají kontroly kvality kódu, včetně lintování a statické analýzy. Datové kanály by také měly zahrnovat testy jednotek a integrace a také toky experimentování a hodnocení. Nakonec začleníte kroky produkčního nasazení, jako je podpora vydaných verzí do testovacího a produkčního prostředí po ručních schváleních. Udržujte oddělení modelů, výzev toků a uživatelského rozhraní klienta, abyste zajistili, že aktualizace jedné komponenty nebudou mít vliv na ostatní. Každý tok by měl mít svůj vlastní životní cyklus pro nezávislé povýšení.

Správa nasazení AI

Správa nasazení AI spočívá v definování, kdo může nasadit prostředky AI a kdo řídí tyto koncové body. Strukturovaný přístup, který vede centrem efektivity umělé inteligence, pomáhá firmám rozhodnout, jestli mají týmy úloh nebo centrální tým spravovat prostředky, vyrovnávat rychlost vývoje s požadavky na zásady správného řízení. AI CoE by měla vést úsilí k určení nejlepšího přístupu.

  • Pro rychlejší vývoj používejte správu prostředků AI v týmu úloh. Když týmy úloh spravují prostředky AI, mají autonomii při nasazování a správě prostředků AI v rámci omezení zásad správného řízení. Azure Policy můžete použít k konzistentnímu vynucování zásad správného řízení ve všech prostředích úloh. Vytvořte a komunikujte zásady AI, které týmy úloh musí dodržovat, aby vyřešily případné mezery v zásadách správného řízení. Můžete například vytvořit generující zásady AI pro vynucení nastavení filtru obsahu a zabránit použití nepovolovaných modelů. Tyto zásady jasně zvidvidujte týmům úloh a pravidelně auditujte.

    Diagram znázorňující správu úloh AI týmu úloh Obrázek 1 Správa prostředků AI v týmu úloh

  • Využijte sdílenou správu prostředků AI, které zvyšují zásady správného řízení AI. Při sdílené správě umělé inteligence spravuje centrální tým prostředky AI pro všechny úlohy AI. Tento tým nasadí základní prostředky AI a nakonfiguruje zabezpečení a zásady správného řízení, které používají všechny týmy úloh. Tento přístup použijte, pokud chcete, aby jeden tým kontroluje nasazení AI a zásady správného řízení napříč vašimi úlohami.

    Diagram znázorňující sdílenou správu úloh AI Obrázek 2 Centrální správa prostředků AI.

Správa sdílení koncových bodů AI

Sdílení koncových bodů AI napříč úlohami může zjednodušit správu, ale vyžaduje pečlivé zvážení požadavků na zásady správného řízení a modelu. Firmy by měly sdílet jenom koncové body v rámci jedné úlohy s konzistentními potřebami, protože sdílené využití různých potřeb může komplikovat zásady správného řízení a zvýšit náklady.

  • Pokud se potřeby zásad správného řízení a modelu liší, vyhněte se sdílení koncových bodů AI. Úlohy, které vyžadují různá nastavení filtru obsahu, jako jsou zásady správného řízení pro vstup a výstup, by neměly sdílet koncový bod. Také nesdílejte jeden koncový bod AI, pokud by jiný model AI poskytoval nákladově efektivnější způsob, jak splnit požadavky na úlohy.

  • Sdílejte koncové body AI pouze v rámci jedné úlohy. Sdílení koncového bodu AI funguje nejlépe, když má tým úloh více aplikací jako součást stejné úlohy. Sdílení koncových bodů AI poskytuje nejnižší režii správy a zjednodušuje nasazení. Tyto aplikace musí sdílet stejné potřeby zásad správného řízení a potřeby modelu AI. Koncové body sdílení můžou způsobit dosažení limitů rychlosti a omezení kvót. Většina služeb Azure má omezení pro každé předplatné. V rámci předplatného má každá oblast omezení kvót.

Správa modelů AI

Správa modelů AI zahrnuje nastavení struktur zásad správného řízení, průběžné monitorování a opětovné trénování, aby se zachoval výkon v průběhu času. Tento proces pomáhá podnikům v souladu s etickými standardy, sledovat výkon modelů a zajistit, aby systémy AI zůstaly účinné a sladěné s obchodními cíli.

  • Vytvořte strukturu zásad správného řízení pro dohled nad AI. Vytvoření centra efektivity umělé inteligence (AI CoE) nebo jmenování vedoucí umělé inteligence Měly by zajistit dodržování zodpovědných standardů AI. Měli by rozhodovat o tom, zda je třeba na základě těchto sestav upravit systémy. Pomocí řídicího panelu Zodpovědné AI můžete generovat sestavy kolem výstupů modelu.

  • Definujte směrný plán měření AI. Vytvořte směrný plán měření, který zajistí, aby modely AI odpovídaly obchodním cílům a etickým standardům. Používejte klíčové ukazatele výkonu, které souvisejí s zodpovědnými principy AI, jako je nestrannost, transparentnost a přesnost. Namapovat tyto klíčové ukazatele výkonu na úlohy AI Například v chatbotu zákaznické služby změřte nestrannost vyhodnocením toho, jak dobře model funguje v různých demografických skupinách. Pokud chcete tato měření provést, začněte nástroji použitými na řídicím panelu Zodpovědné AI.

  • Implementujte průběžné monitorování. Úlohy AI se můžou v průběhu času měnit kvůli měnícím se datům, aktualizacím modelu nebo změnám chování uživatelů. Monitorujte modely AI, prostředky AI a data AI, abyste zajistili, že tyto úlohy zůstanou v souladu s klíčovými ukazateli výkonu. Proveďte audity pro posouzení systémů AI proti definovaným principům a metrikám zodpovědné umělé inteligence.

  • Identifikace původních příčin problémů s výkonem Určení zdroje problému při zjištění poklesu výkonu nebo přesnosti monitorováním AI Ujistěte se, že máte přehled o jednotlivých fázích interakce, abyste mohli problém izolovat a rychleji implementovat opravné akce. Pokud například chatbot služby zákazníkům generuje nepřesné odpovědi, mělo by vám monitorování pomoct určit, jestli se chyba nachází v výzvě, nebo jestli model rozumí kontextu. Pomocí integrovaných nástrojů, jako je Azure Monitor a Application Insights, můžete proaktivně identifikovat kritické body výkonu a anomálie.

  • Sledování vyřazení modelu Sledujte vyřazení předtrénovaných modelů, abyste zabránili problémům s výkonem při ukončení podpory dodavatele. Například model generující umělé inteligence může být zastaralý, takže byste ho museli aktualizovat, aby se zachovaly funkce. Portál Azure AI Foundry zobrazuje datum vyřazení modelu pro všechna nasazení.

  • Podle potřeby přetrénujte modely AI. Z důvodu změn v datech je potřeba počítat se snížením výkonu modelů v průběhu času. Naplánujte pravidelné přetrénování na základě výkonu modelu nebo obchodních potřeb, aby systém AI zůstal relevantní. Opětovné trénování může být nákladné, proto vyhodnoťte počáteční náklady na trénování a využijte tyto náklady k vyhodnocení četnosti opětovného trénování modelů AI. Udržujte správu verzí pro modely a zajistěte mechanismus vrácení zpět pro méně výkonné verze.

  • Vytvoření procesu povýšení modelu Pomocí bran kvality můžete zvýšit úroveň trénovaných, vyladěných a přetrénovaných modelů na vyšší prostředí na základě kritérií výkonu. Kritéria výkonu jsou jedinečná pro každou aplikaci.

Správa nákladů na AI

Správa nákladů na AI vyžaduje jasné porozumění nákladům souvisejícím s prostředky, jako jsou výpočetní prostředky, úložiště a zpracování tokenů. Měli byste implementovat osvědčené postupy správy nákladů, monitorovat využití a nastavit automatizovaná upozornění, abyste se vyhnuli neočekávaným výdajům a optimalizovali efektivitu prostředků.

  • Dodržujte osvědčené postupy správy nákladů pro každou službu. Každá služba Azure má specifické funkce a osvědčené postupy, které maximalizují optimalizaci nákladů. Seznamte se s následujícími pokyny k plánování a správě nákladů v azure AI Foundry, služby Azure OpenAI a Azure Machine Learning .

  • Monitorujte a maximalizujte efektivitu fakturace. Seznamte se se zarážky nákladů, abyste se vyhnuli zbytečným poplatkům. Mezi příklady patří plné využití prahových hodnot s pevnou cenou pro generování obrázků nebo ladění po hodinách. Sledujte vzory využití, včetně tokenů za minutu (TPM) a požadavků za minutu (RPM) a odpovídajícím způsobem upravte modely a architekturu. Zvažte model fakturace založený na závazku pro konzistentní vzory využití.

  • Nastavení automatizovaných upozornění na náklady Pomocí upozornění na rozpočet můžete informovat o neočekávaných poplatcích a vytvořit strategie rozpočtování pro řízení a predikci výdajů na AI.

Informace o generování aplikací AI pomocí Azure OpenAI najdete v těchto doporučeních pro optimalizaci nákladů.

Správa dat AI

Efektivní správa dat AI se zaměřuje na zachování přesnosti dat, integrity a citlivosti v průběhu životního cyklu AI. Při kurátorování vysoce kvalitních datových sad a zabezpečení datových kanálů může vaše organizace zajistit, aby data zůstala spolehlivá a splňovala měnící se zákonné požadavky.

  • Udržujte přesnost dat a správě zlatých datových sad. Vytvořte autoritativní sadu dat, která se používají k pravidelnému testování a ověřování v obou typech AI. Tuto datovou sadu průběžně kurátorujte, aby se zajistilo, že bude odrážet aktuální a přesné informace.

  • Zajistěte integritu datového kanálu. Vyvíjejte a udržujte vlastní datové kanály, abyste zajistili integritu dat ze shromažďování dat až po předběžné zpracování a úložiště. Každý krok kanálu musí být zabezpečený, aby se zachoval výkon a spolehlivost v obou typech aplikací AI.

  • Správa změn citlivosti dat Uvědomte si, že klasifikace citlivosti dat se může v průběhu času měnit. Data s nízkou citlivostí můžete chtít přetřídět jako vysoce citlivá kvůli obchodním nebo regulačním změnám. Vyvíjejte procesy pro odebírání nebo nahrazování citlivých dat v podřízených systémech. Microsoft Defender for Cloud a Microsoft Purview vám můžou pomoct označit a spravovat citlivá data. Tento proces začíná dobrým katalogem dat před příjmem AI. Pokud dojde ke změnám, identifikujte všechny modely nebo systémy, které používají citlivá data. Pokud je to možné, přetrénujte modely AI pomocí datových sad, které vylučují přetříděná citlivá data.

Správa provozní kontinuity AI

Provozní kontinuita a zotavení po havárii pro AI zahrnují vytváření nasazení ve více oblastech a pravidelné testování plánů obnovení. Tyto strategie pomáhají zajistit, aby systémy AI zůstaly v provozu během přerušení a minimalizovaly riziko dlouhodobého výpadku nebo ztráty dat.

  • Použití nasazení ve více oblastech pro AI Implementujte nasazení ve více oblastech, abyste zajistili vysokou dostupnost a odolnost pro systémy generování i negenerativní AI. Tyto strategie minimalizují výpadky a zajišťují, aby kritické aplikace umělé inteligence zůstaly funkční během regionálních výpadků nebo selhání infrastruktury. Ujistěte se, že implementujete potřebnou redundanci pro natrénované a jemně vyladěné modely, abyste se vyhnuli nutnosti opětovného trénování během výpadku.

  • Pravidelně testujte a ověřte plány zotavení po havárii. Proveďte pravidelné testy plánů zotavení po havárii a ověřte, že můžete efektivně obnovit systémy generování a negenerativní umělé inteligence. Zahrňte testování procesů obnovení dat a ověřovacích postupů, abyste zajistili správné fungování všech komponent AI po obnovení. Pravidelné ověřování zajišťuje, že je organizace připravená na skutečné incidenty a minimalizuje riziko selhání během zotavení.

  • Správa a sledování změn systémů AI Ujistěte se, že všechny změny modelů, dat a konfigurací se spravují prostřednictvím systémů správy verzí, jako je Git. To je důležité pro sledování úprav a zajištění možnosti obnovení předchozích verzí během obnovení. Pro generování a negenerativní AI by se mělo zavést automatizované auditování změn modelu a systému, abyste mohli rychle identifikovat a vrátit neplánované změny.

Další krok