Uspořádání a nastavení prostředí služby Azure Machine Learning

Článek
10/10/2023

Při plánování nasazení služby Azure Machine Učení pro podnikové prostředí existují některé běžné rozhodovací body, které ovlivňují způsob vytváření pracovního prostoru:

Struktura týmu: Způsob uspořádání týmů datových věd a spolupráce na projektech, vzhledem k případům použití a oddělení dat nebo požadavkům na správu nákladů
Prostředí: Prostředí, která používáte jako součást vývojového a vydaného pracovního postupu pro oddělení vývoje od produkčního prostředí
Oblast: Umístění dat a cílové skupiny, ke kterým potřebujete poskytovat řešení strojového učení

Nastavení týmové struktury a pracovního prostoru

Pracovní prostor je prostředek nejvyšší úrovně ve službě Azure Machine Učení. Ukládá artefakty vytvořené při práci se strojovým učením a spravovanými výpočetními prostředky a ukazateli na připojené a přidružené prostředky. Z hlediska spravovatelnosti pracovní prostor jako prostředek Azure Resource Manageru podporuje řízení přístupu na základě role v Azure (Azure RBAC), správu podle zásad a můžete ho použít jako jednotku pro vytváření sestav nákladů.

Organizace si obvykle vybírají jeden nebo kombinaci následujících vzorů řešení, aby dodržovaly požadavky na spravovatelnost.

Pracovní prostor na tým: Pro každý tým použijte jeden pracovní prostor, pokud všichni členové týmu vyžadují stejnou úroveň přístupu k datům a experimentačním prostředkům. Například organizace se třemi týmy strojového učení může vytvořit tři pracovní prostory, jeden pro každý tým.

Výhodou použití jednoho pracovního prostoru na tým je, že všechny artefakty strojového učení pro projekty týmu se ukládají na jednom místě. Můžete vidět zvýšení produktivity, protože členové týmu můžou snadno přistupovat k výsledkům experimentování, zkoumat je a opakovaně je používat. Uspořádání pracovních prostorů podle týmu snižuje nároky na Azure a zjednodušuje správu nákladů podle týmu. Vzhledem k tomu, že počet experimentačních prostředků může rychle narůstat, můžete artefakty uspořádat podle konvencí pojmenování a označování. Doporučení týkající se pojmenování prostředků najdete v tématu Vývoj strategie pojmenování a označování prostředků Azure.

S tímto přístupem musí mít každý člen týmu podobná oprávnění na úrovni přístupu k datům. Podrobné řízení přístupu na základě role (RBAC) a seznamy řízení přístupu (ACL) pro zdroje dat a prostředky experimentování jsou v pracovním prostoru omezené. Požadavky na oddělení dat v případě použití nemůžete použít.

Pracovní prostor na jeden projekt: Pro každý projekt použijte jeden pracovní prostor, pokud potřebujete oddělení dat a experimentování prostředků podle projektu nebo máte požadavky na vykazování nákladů a rozpočtování na úrovni projektu. Můžete mít například organizaci se čtyřmi týmy strojového učení, které spouští tři projekty pro celkem 12 instancí pracovních prostorů.

Výhodou použití jednoho pracovního prostoru na jeden projekt je, že spravujete náklady na úrovni projektu. Tým obvykle vytvoří vyhrazenou skupinu prostředků pro azure machine Učení a přidružené prostředky z podobných důvodů. Když pracujete s externími přispěvateli, například pracovní prostor založený na projektu, zjednodušuje spolupráci na projektu, protože externím uživatelům stačí udělit přístup jenom k prostředkům projektu, ne k týmovým zdrojům.

Při tomto přístupu je potřeba zvážit izolaci výsledků experimentování a prostředků. Zjišťování a opakované použití prostředků může být obtížnější, protože prostředky jsou rozložené do více instancí pracovního prostoru.

Jeden pracovní prostor: Použijte jeden pracovní prostor pro práci nesouvisenou s týmem nebo nesouviseným projektem nebo pokud náklady nelze přímo přidružit ke konkrétní jednotce fakturace, například s R&D.

Výhodou tohoto nastavení jsou náklady na individuální, neprojektovou práci je možné oddělit od nákladů souvisejících s projektem. Když nastavíte jeden pracovní prostor pro všechny uživatele, aby mohli provádět svoji individuální práci, snížíte nároky na Azure.

Díky tomuto přístupu se pracovní prostor může rychle stát nepotřebným, když mnoho odborníků na strojové učení sdílí stejnou instanci. Uživatelé můžou vyžadovat filtrování prostředků na základě uživatelského rozhraní, aby mohli efektivně najít své prostředky. Pro každou obchodní divize můžete vytvořit sdílené pracovní prostory strojového učení, které zmírní obavy z rozsahu nebo segmentují rozpočty.

Nastavení prostředí a pracovního prostoru

Prostředí je kolekce prostředků, které cílí na základě fáze životního cyklu aplikace. Mezi běžné příklady názvů prostředí patří vývoj, testování, kontrola kvality, příprava a produkce.

Proces vývoje ve vaší organizaci ovlivňuje požadavky na využití prostředí. Vaše prostředí ovlivňuje nastavení služby Azure Machine Učení a přidružených prostředků, jako jsou připojené výpočetní prostředky. Dostupnost dat může například omezit možnosti správy dostupnosti instance strojového učení pro každé prostředí. Běžné jsou následující vzory řešení:

Nasazení jednoho pracovního prostoru prostředí: Když zvolíte jedno nasazení pracovního prostoru prostředí, azure machine Učení nasadí do jednoho prostředí. Toto nastavení je běžné pro scénáře zaměřené na výzkum, kdy není potřeba vydávat artefakty strojového učení na základě jejich fáze životního cyklu napříč prostředími. Dalším scénářem, kdy toto nastavení dává smysl, je, když se nasazují pouze služby odvozování, nikoli kanály strojového učení, napříč prostředími.

Výhodou nastavení zaměřeného na výzkum je menší nároky na Azure a minimální režie na správu. Tento způsob práce znamená, že není nutné mít v každém prostředí nasazený pracovní prostor Azure Machine Učení.

Při tomto přístupu se na dostupnost dat vztahuje jedno nasazení prostředí. Proto buďte opatrní při nastavování úložiště dat. Pokud nastavíte rozsáhlý přístup, například přístup zapisovače v produkčních zdrojích dat, můžete neúmyslně poškodit kvalitu dat. Pokud práci přenesete do produkčního prostředí ve stejném prostředí, ve kterém k vývoji dochází, platí stejná omezení RBAC jak pro vývojovou práci, tak pro produkční práci. Díky tomuto nastavení může být obě prostředí příliš pevná nebo příliš flexibilní.

Nasazení pracovního prostoru více prostředí: Když zvolíte nasazení více pracovních prostorů prostředí, instance pracovního prostoru se nasadí pro každé prostředí. Běžným scénářem tohoto nastavení je regulovaná pracoviště s jasným oddělením povinností mezi prostředími a pro uživatele, kteří mají k těmto prostředím přístup k prostředkům.

Výhody tohoto nastavení:

Postupné zavedení pracovních postupů a artefaktů strojového učení Například modely napříč prostředími s potenciálem zvýšit flexibilitu a zkrátit dobu nasazení.
Vylepšené zabezpečení a řízení prostředků, protože v podřízených prostředích můžete přiřadit více omezení přístupu.
Trénovací scénáře pro produkční data v prostředích, která nejsou vývojová, protože můžete skupině uživatelů udělit přístup.

S tímto přístupem riskujete větší režii na správu a procesy. Toto nastavení vyžaduje jemně odstupňovaný proces vývoje a zavedení artefaktů strojového učení napříč instancemi pracovních prostorů. Ke zpřístupnění produkčních dat pro trénování ve vývojovém prostředí může být také potřeba správa dat a technické úsilí. Správa přístupu vyžaduje, abyste týmu poskytli přístup k řešení a vyšetřování incidentů v produkčním prostředí. A nakonec váš tým potřebuje k implementaci pracovních postupů automatizace zkušenosti s Azure DevOps a strojovým učením.

Jedno prostředí s omezeným přístupem k datům, jedno s přístupem k produkčním datům: Když zvolíte toto nastavení, Azure Machine Učení nasadí do dvou prostředí: jedno s omezeným přístupem k datům a jedno s přístupem k produkčním datům. Toto nastavení je běžné, pokud potřebujete oddělit vývojová a produkční prostředí. Můžete například pracovat v rámci organizačních omezení, aby byla produkční data dostupná v jakémkoli prostředí, nebo můžete chtít oddělit vývojovou práci od produkční práce, aniž byste duplikoval data více, než je potřeba kvůli vysokým nákladům na údržbu.

Výhodou tohoto nastavení je jasné oddělení povinností a přístupu mezi vývojovými a produkčními prostředími. Další výhodou je nižší režijní náklady na správu prostředků v porovnání se scénářem nasazení s více prostředími.

S tímto přístupem potřebujete definovaný proces vývoje a zavedení artefaktů strojového učení napříč pracovními prostory. Může také vyžadovat správu dat a technické úsilí, aby byla produkční data k dispozici pro trénování ve vývojovém prostředí. Tento přístup ale může vyžadovat relativně menší úsilí než nasazení pracovního prostoru s více prostředími.

Nastavení oblastí a prostředků

Umístění prostředků, dat nebo uživatelů může vyžadovat vytvoření instancí pracovního prostoru Azure Machine Učení a přidružených prostředků ve více oblastech Azure. Jeden projekt může například zahrnovat prostředky napříč oblastmi Azure v oblasti Západní Evropa a USA – východ z důvodů výkonu, nákladů a dodržování předpisů. Běžné jsou následující scénáře:

Regionální trénování: Úlohy trénování strojového učení běží ve stejné oblasti Azure jako umístění dat. V tomto nastavení se pracovní prostor strojového učení nasadí do každé oblasti Azure, kde se nacházejí data. Tento scénář je běžný v případě, že potřebujete splnit dodržování předpisů nebo pokud máte omezení přesunu dat napříč oblastmi.

Výhodou tohoto nastavení je, že můžete experimentovat v datovém centru, kde se data nacházejí s nejnižší latencí sítě. Díky tomuto přístupu se při spuštění kanálu strojového učení napříč několika instancemi pracovních prostorů zvyšuje složitost správy. Je náročné porovnat výsledky experimentování napříč instancemi a přidat režii k kvótám a správě výpočetních prostředků.

Pokud chcete připojit úložiště napříč oblastmi, ale použít výpočetní prostředky z jedné oblasti, azure machine Učení podporuje scénář připojení účtů úložiště v oblasti, nikoli v pracovním prostoru. Metadata, například metriky, jsou uložena v oblasti pracovního prostoru.

Regionální obsluha: Služby Machine Learning se nasazují blízko místa, kde se nachází cílová skupina. Pokud jsou například cíloví uživatelé v Austrálii a hlavní oblastí úložiště a experimentování je Západní Evropa, nasaďte pracovní prostor strojového učení pro experimentování v oblasti Západní Evropa. Pak nasadíte cluster AKS pro nasazení koncového bodu odvozování v Austrálii.

Výhody tohoto nastavení jsou příležitostí k odvozování v datacentru, kde se ingestují nová data, minimalizují latenci a přesun dat a dodržování místních předpisů.

Díky tomuto přístupu poskytuje nastavení s více oblastmi několik výhod, ale také zvyšuje režijní náklady na kvótu a správu výpočetních prostředků. Pokud potřebujete dávkové odvozování, může regionální obsluha vyžadovat nasazení s více pracovními prostory. Data shromážděná prostřednictvím odvozování koncových bodů můžou být potřeba přenést napříč oblastmi pro scénáře opětovného natrénování.

Regionální vyladění: Základní model se trénuje na počáteční datové sadě, například na veřejných datech nebo datech ze všech oblastí, a později se doladí s regionální datovou sadou. Regionální datová sada může existovat pouze v konkrétní oblasti kvůli omezením dodržování předpisů nebo přesunu dat. Můžete například potřebovat trénování základního modelu v pracovním prostoru v oblasti A, zatímco vyladění probíhá v pracovním prostoru v oblasti B.

Výhodou tohoto nastavení je, že můžete experimentovat v datovém centru, kde se nacházejí data. Stále můžete využít i trénování základního modelu u větší datové sady v dřívější fázi kanálu.

Tento přístup podporuje složité kanály experimentování, ale může to způsobit další výzvy. Když například porovnáváte výsledky experimentů napříč oblastmi, může to vyžadovat větší režii pro kvótu a správu výpočetních prostředků.

Referenční implementace

Pro ilustraci nasazení služby Azure Machine Učení ve větším nastavení ukazuje tato část, jak organizace Contoso nastaví Učení Azure Machine Učení, vzhledem k omezením organizace, vytváření sestav a požadavkům na rozpočet:

Společnost Contoso vytváří skupiny prostředků na základě řešení z důvodů správy nákladů a generování sestav.
Správci IT vytvářejí pouze skupiny prostředků a prostředky pro financovaná řešení, aby splnili požadavky na rozpočet.
Vzhledem k průzkumné a nejisté povaze Datová Věda potřebují uživatelé místo pro experimentování a práci pro případ použití a zkoumání dat. Průzkumná práce se často nedá přímo přidružit k určitému případu použití a může být přidružena pouze k rozpočtu R&D. Společnost Contoso chce centrálně zafinanovat některé zdroje strojového učení, které může každý použít pro účely průzkumu.
Jakmile se případ použití strojového učení ukáže jako úspěšný v průzkumném prostředí, týmy můžou požádat o skupiny prostředků. Společnost může například nastavit vývoj, kontrolu kvality a produkci pro iterativní práci projektu experimentování a přístup k produkčním zdrojům dat.
Požadavky na oddělení dat a dodržování předpisů neumožňují existenci živých produkčních dat ve vývojových prostředích.
Pro různé skupiny uživatelů podle zásad IT na prostředí existují různé požadavky RBAC, například přístup je v produkčním prostředí omezenější.
Všechna data, experimentování a odvozování probíhají v jedné oblasti Azure.

Aby společnost Contoso dodržovala výše uvedené požadavky, nastaví své prostředky následujícím způsobem:

Azure Machine Učení pracovní prostory a skupiny prostředků omezené na jednotlivé projekty, aby dodržovaly požadavky na oddělení případů rozpočtu a použití.
Nastavení více prostředí pro azure machine Učení a přidružené prostředky pro řešení požadavků na správu nákladů, řízení přístupu na základě role a přístupu k datům.
Jedna skupina prostředků a pracovní prostor strojového učení, který je vyhrazený pro zkoumání.
Skupiny Microsoft Entra, které se liší podle role uživatele a prostředí. Například operace, které může datový vědec provádět v produkčním prostředí, se liší od úrovně přístupu ve vývojovém prostředí a úrovně přístupu se můžou lišit v jednotlivých řešeních.
Všechny prostředky vytvořené v jedné oblasti Azure

Další kroky

Seznamte se s osvědčenými postupy pro DevOps strojového učení s využitím služby Azure Machine Učení.

Průvodce DevOps pro strojové učení

Přečtěte si informace o aspektech správy rozpočtů, kvót a nákladů pomocí služby Azure Machine Učení.

Správa rozpočtů, nákladů a kvót pro Azure Machine Learning v organizačním měřítku

Sdílet prostřednictvím