Úvod
Pokud chcete získat cenné přehledy z dat, můžete vytrénovat model strojového učení pomocí datových věd. Jako datový vědec můžete být obeznámeni s používáním opensourcových architektur, jako jsou scikit-learn a TensorFlow k trénování modelů. Microsoft Fabric nabízí známé prostředí poznámkového bloku pro trénování modelů, integraci s opensourcovou architekturou MLflow pro snadné sledování a správu modelů.
Vysvětlení procesu datových věd
Projekt datových věd obvykle zahrnuje následující fáze:
- Definujte problém: Spolu s obchodními uživateli a analytiky se rozhodněte, co má model předpovídat a kdy je úspěšný.
- Získejte data: Vyhledejte zdroje dat a získejte přístup tím, že data uložíte do jezera.
- Příprava dat: Prozkoumejte data tím, že je přečtete z jezera do poznámkového bloku. Vyčistěte a transformujte data na základě požadavků modelu.
- Trénování modelu: Zvolte algoritmus a hodnoty hyperparametrů na základě zkušebního a chybového procesu sledováním experimentů pomocí MLflow.
- Generování předpovědí: K vygenerování požadovaných předpovědí použijte dávkové bodování modelu.
V tomto modulu se zaměříte na trénování a sledování modelu. Pracujete v poznámkovém bloku v Microsoft Fabricu a pracujete s Pythonem na trénování modelu. Naučíte se používat MLflow ke sledování modelů strojového učení a jejich metadat. Nakonec prozkoumáte modely pomocí knihovny MLflow a uživatelského rozhraní Microsoft Fabric.