Kompletní scénář datové vědy: úvod a architektura
Tato sada kurzů ukazuje ukázkový kompletní scénář v prostředí pro datové vědy Fabric. Každý krok implementujete od příjmu dat, čištění a přípravy až po trénování modelů strojového učení a generování přehledů a následné využití těchto přehledů pomocí vizualizačních nástrojů, jako je Power BI.
Pokud s Microsoft Fabric začínáte, přečtěte si téma Co je Microsoft Fabric?.
Úvod
Životní cyklus projektu datových věd obvykle zahrnuje (často iterativní) následující kroky:
- Obchodní porozumění
- Získávání dat
- Zkoumání, čištění, příprava a vizualizace dat
- Trénování modelů a sledování experimentů
- Modelování bodování a generování přehledů
Cíle a kritéria úspěchu jednotlivých fází závisí na spolupráci, sdílení dat a dokumentaci. Prostředí pro datové vědy Fabric se skládá z několika nativních funkcí, které umožňují bezproblémovou spolupráci, získávání dat, sdílení a spotřebu.
V těchto kurzech převezmete roli datového vědce, který dostal úkol prozkoumat, vyčistit a transformovat datovou sadu obsahující stav četnosti změn 10 000 zákazníků v bance. Pak vytvoříte model strojového učení, který předpovídá, kteří zákazníci z banky pravděpodobně odejdou.
Naučíte se provádět následující aktivity:
- Poznámkové bloky Fabric použijte pro scénáře datových věd.
- Vkládání dat do Fabric Lakehouse pomocí Apache Spark
- Načtěte existující data z tabulek delta lakehouse.
- Vyčistěte a transformujte data pomocí nástrojů založených na Apache Sparku a Pythonu.
- Vytvářejte experimenty a běhy pro trénování různých modelů strojového učení.
- Registrace a sledování natrénovaných modelů pomocí MLflow a uživatelského rozhraní Fabric
- Spusťte zpracování výsledků ve velkém měřítku a uložte předpovědi a výsledky inference do lakehouse.
- Vizualizace předpovědí v Power BI pomocí DirectLake
Architektura
V této sérii kurzů představujeme zjednodušený komplexní scénář datových věd, který zahrnuje:
- Ingestování dat z externího zdroje dat.
- Prozkoumat a vyčistit data.
- Trénování a registrace modelů strojového učení.
- Provádět dávkové vyhodnocování a ukládat předpovědi.
- Vizualizovat výsledky předpovědi v Power BI.
Různé komponenty scénáře datových věd
zdroje dat – Platforma Fabric umožňuje snadné a rychlé připojení k Azure Data Services, dalším cloudovým platformám a místním zdrojům dat pro získávání dat. Pomocí Fabric poznámkových bloků můžete načítat data z vestavěného Lakehouse, Data Warehouse, sémantických modelů a různých vlastních zdrojů dat podporovaných Apache Spark a Python. Tato série kurzů se zaměřuje na ingestování a načítání dat z jezera.
Prozkoumání, vyčištění a příprava – prostředí pro datové vědy v rámci Fabric podporuje čištění dat, transformaci, zkoumání a tvorbu vlastností pomocí integrovaných zkušeností ve Spark a také nástrojů založených na Pythonu, jako jsou Data Wrangler a knihovna SemPy. Tento kurz předvede zkoumání dat pomocí knihovny Pythonu seaborn
a čištění a přípravy dat pomocí Apache Sparku.
Modely a experimenty – Fabric umožňuje trénovat, vyhodnocovat a skórovat modely strojového učení pomocí integrovaných položek experimentů a modelů s bezproblémovou integrací s MLflow pro sledování experimentů a registraci/nasazení modelu. Tkanina také obsahuje možnosti pro predikci modelu ve velkém měřítku (PREDICT) k získání a sdílení obchodních vhledů.
Storage – Platforma Fabric se standardizuje na Delta Lake, což znamená, že všechny enginy platformy Fabric mohou pracovat se stejnou datovou sadou uloženou v lakehouse. Tato vrstva úložiště umožňuje ukládat strukturovaná i nestrukturovaná data, která podporují ukládání na základě souborů i tabulkového formátu. K datovým sadám a souborům, které jsou uložené, je možné snadno přistupovat prostřednictvím všech položek prostředí Fabric, jako jsou poznámkové bloky a kanály.
Zveřejnění analýzy a přehledů – Data z lakehouse může být využívána Power BI, předním nástrojem business intelligence pro vytváření sestav a vizualizaci. Data uložená v jezeře je možné vizualizovat také v poznámkových blocích pomocí nativních knihoven vizualizace Sparku nebo Pythonu, jako jsou matplotlib
, seaborn
, plotly
a další. Data je možné vizualizovat také pomocí knihovny SemPy, která podporuje integrované vizualizace specifické pro konkrétní úlohy pro sémantický datový model, pro závislosti a jejich porušení a pro případy použití klasifikace a regrese.