Úvod
Datové vědy jsou obory, které používají vědecké metody, procesy, algoritmy a nástroje k extrakci znalostí a přehledů ze strukturovaných a nestrukturovaných dat.
V typickém projektu datových věd je běžné začít průzkumnou analýzou dat (EDA), kde zahrnuje pochopení vzorů, zjišťování anomálií a kontrolu předpokladů souvisejících s podkladovými daty.
Jakmile budete mít tyto znalosti, můžete přejít k fázi předběžného zpracování. Tady řešíte problémy s kvalitou dat identifikovanými během EDA a připravíte data na modelování. Předběžné zpracování transformuje nezpracovaná data do srozumitelného formátu pro algoritmy strojového učení, což zlepšuje jejich schopnost provádět přesné předpovědi.
Data Wrangler v Microsoft Fabric nabízí grafické prostředí, ve kterém můžete snadno generovat kód pro účely zkoumání a předběžného zpracování a zajistit, aby vaše data byla v nejlepším možném tvaru, než se použije k trénování modelu strojového učení.
Vysvětlení procesu datových věd
Předběžné zpracování dat je předběžná příprava dat, která nastaví fázi pro všechny následné kroky v procesu datových věd.
- Definujte problém: Spolu s obchodními uživateli a analytiky se rozhodněte, co má model předpovídat a kdy je úspěšný.
- Získejte data: Vyhledejte zdroje dat a získejte přístup tím, že data uložíte do Lakehouse.
- Příprava dat: Prozkoumejte data tím, že je přečtete z Lakehouse do poznámkového bloku. Vyčistěte a transformujte data na základě požadavků modelu.
- Trénování modelu: Zvolte algoritmus a hodnoty hyperparametrů na základě zkušebního a chybového procesu sledováním experimentů pomocí MLflow.
- Generování přehledů: K vygenerování požadovaných předpovědí použijte dávkové bodování modelu.
V tomto modulu se zaměřujeme na předběžné zpracování dat pomocí služby Data Wrangler. Pracujete v poznámkovém bloku Microsoft Fabric pomocí nástroje Data Wrangler i Pythonu pro zkoumání dat. Naučíte se spravovat chybějící data a pomocí různých operátorů transformovat data pro kanál sestavení modelu. Nakonec získáte praktické zkušenosti s předzpracováním dat pomocí služby Data Wrangler v poznámkových blocích Microsoft Fabric prostřednictvím praktického cvičení.