Návrh pro monitorování

Dokončeno

V rámci architektury operací strojového učení (MLOps) byste měli přemýšlet o tom, jak monitorovat řešení strojového učení.

Monitorování je výhodné v jakémkoli prostředí MLOps. Budete chtít monitorovat model, data a infrastrukturu a shromažďovat metriky, které vám pomůžou rozhodnout o nezbytných dalších krocích.

Monitorování modelu

Nejčastěji chcete monitorovat výkon modelu. Během vývoje použijete MLflow k trénování a sledování modelů strojového učení. V závislosti na modelu, který trénujete, můžete použít různé metriky k vyhodnocení, jestli model funguje podle očekávání.

Pokud chcete monitorovat model v produkčním prostředí, můžete pomocí natrénovaného modelu generovat předpovědi na malé podmnožině nových příchozích dat. Generováním metrik výkonu u testovacích dat můžete ověřit, jestli model stále dosahuje svého cíle.

Kromě toho můžete také chtít monitorovat všechny zodpovědné problémy s umělou inteligencí (AI). Například jestli model provádí spravedlivé předpovědi.

Než budete moct monitorovat model, je důležité rozhodnout, které metriky výkonu chcete monitorovat a jaké srovnávací testy pro každou metriku by měly být. Kdy byste měli být upozorněni, že model už není přesný?

Monitorování dat

Model strojového učení obvykle trénujete pomocí historické datové sady, která představuje nová data, která model obdrží při nasazení. V průběhu času ale můžou nacházet trendy, které mění profil dat, takže model bude méně přesný.

Předpokládejme například, že model je natrénovaný tak, aby předpověděl očekávaný objem kilometrů plynu automobilu na základě počtu válců, velikosti motoru, hmotnosti a dalších funkcí. S tím, jak se technologie výroby a motoru automobilů v průběhu času mění, může se typická palivová účinnost vozidel výrazně zlepšit; tím, že jsou předpovědi modelu natrénované na starších datech méně přesné.

Diagram of different hyperparameter values resulting in different models by performing hyperparameter tuning.

Tato změna profilů dat mezi aktuálními a trénovacími daty se označuje jako posun dat a může to být významný problém pro prediktivní modely používané v produkčním prostředí. Proto je důležité mít možnost monitorovat posun dat v průběhu času a podle potřeby přetrénovat modely, aby se zachovala prediktivní přesnost.

Monitorování infrastruktury

Vedle monitorování modelu a dat byste měli také monitorovat infrastrukturu, abyste minimalizovali náklady a optimalizovali výkon.

V průběhu životního cyklu strojového učení použijete výpočetní prostředky k trénování a nasazování modelů. Díky projektům strojového učení v cloudu může být výpočetní prostředí jedním z vašich největších výdajů. Proto chcete monitorovat, jestli používáte výpočetní prostředky efektivně.

Můžete například monitorovat využití výpočetních prostředků během trénování a během nasazování. Kontrolou využití výpočetních prostředků víte, jestli můžete vertikálně snížit kapacitu zřízeného výpočetního prostředí nebo jestli potřebujete škálovat kapacitu, abyste se vyhnuli omezením kapacity.