Identifikace prostředků služby Azure Machine Learning
Jako datový vědec většinou pracujete s prostředky v pracovním prostoru Azure Machine Learning. Prostředky se vytvářejí a používají v různých fázích projektu a zahrnují:
- Modely
- Prostředí
- Data
- Komponenty
Vytváření a správa modelů
Konečným produktem trénování modelu je samotný model. Modely strojového učení můžete trénovat pomocí různých architektur, jako jsou Scikit-learn nebo PyTorch. Běžným způsobem, jak takové modely uložit, je zabalit model jako soubor pickle Pythonu (.pkl
přípona).
Alternativně můžete použít opensourcovou platformu MLflow k uložení modelu ve formátu MLModel.
Tip
Přečtěte si další informace o protokolování artefaktů pracovního postupu jako modelů pomocí MLflow a formátu MLModel.
Ať už zvolíte libovolný formát, binární soubory představují model a všechna odpovídající metadata. Pokud chcete tyto soubory zachovat, můžete vytvořit nebo zaregistrovat model v pracovním prostoru.
Při vytváření modelu v pracovním prostoru zadáte název a verzi. Zvláště užitečné při nasazení registrovaného modelu vám správa verzí umožňuje sledovat konkrétní model, který chcete použít.
Vytváření a správa prostředí
Při práci s cloudovými výpočetními prostředky je důležité zajistit, aby váš kód běžel na všech výpočetních prostředcích, které jsou pro vás k dispozici. Bez ohledu na to, jestli chcete spustit skript ve výpočetní instanci nebo výpočetním clusteru, měl by se kód úspěšně spustit.
Představte si, že pracujete v Pythonu nebo R pomocí opensourcových architektur pro trénování modelu na místním zařízení. Pokud chcete použít knihovnu, jako je Scikit-learn nebo PyTorch, musíte ji nainstalovat na své zařízení.
Podobně když píšete kód, který používá jakékoli architektury nebo knihovny, musíte zajistit, aby byly na výpočetních prostředcích, které spouští kód, nainstalované potřebné závislosti. Pokud chcete zobrazit seznam všech nezbytných požadavků, můžete vytvořit prostředí. Při vytváření prostředí musíte zadat název a verzi.
Prostředí určují softwarové balíčky, proměnné prostředí a nastavení softwaru pro spouštění skriptů. Prostředí se uloží jako image ve službě Azure Container Registry vytvořené s pracovním prostorem při prvním použití.
Kdykoli chcete spustit skript, můžete určit prostředí, které má cílový výpočetní objekt používat. Prostředí před spuštěním skriptu nainstaluje všechny nezbytné požadavky na výpočetní prostředky, aby byl váš kód robustní a opakovaně použitelný napříč cílovými výpočetními objekty.
Vytváření a správa dat
Zatímco úložiště dat obsahují informace o připojení ke službám úložiště dat Azure, datové prostředky odkazují na konkrétní soubor nebo složku.
Datové prostředky můžete použít k snadnému přístupu k datům pokaždé, aniž byste museli poskytovat ověřování pokaždé, když k němu chcete získat přístup.
Při vytváření datového prostředku v pracovním prostoru zadáte cestu, která má odkazovat na soubor nebo složku, a název a verzi.
Vytváření a správa komponent
K trénování modelů strojového učení napíšete kód. V různých projektech může existovat kód, který můžete opakovaně použít. Místo psaní kódu od začátku chcete znovu použít fragmenty kódu z jiných projektů.
Pokud chcete usnadnit sdílení kódu, můžete vytvořit komponentu v pracovním prostoru. Pokud chcete vytvořit komponentu, musíte zadat název, verzi, kód a prostředí potřebné ke spuštění kódu.
Komponenty můžete použít při vytváření kanálů. Komponenta proto často představuje krok v kanálu, například k normalizaci dat, k trénování regresního modelu nebo k otestování natrénovaného modelu na ověřovací datové sadě.