Kompletní scénář datové vědy: úvod a architektura

Článek
01/27/2025

Tato sada kurzů ukazuje ukázkový kompletní scénář v prostředí pro datové vědy Fabric. Každý krok implementujete od příjmu dat, čištění a přípravy až po trénování modelů strojového učení a generování přehledů a následné využití těchto přehledů pomocí vizualizačních nástrojů, jako je Power BI.

Pokud s Microsoft Fabric začínáte, přečtěte si téma Co je Microsoft Fabric?.

Úvod

Životní cyklus projektu datových věd obvykle zahrnuje (často iterativní) následující kroky:

Obchodní porozumění
Získávání dat
Zkoumání, čištění, příprava a vizualizace dat
Trénování modelů a sledování experimentů
Modelování bodování a generování přehledů

Cíle a kritéria úspěchu jednotlivých fází závisí na spolupráci, sdílení dat a dokumentaci. Prostředí pro datové vědy Fabric se skládá z několika nativních funkcí, které umožňují bezproblémovou spolupráci, získávání dat, sdílení a spotřebu.

V těchto kurzech převezmete roli datového vědce, který dostal úkol prozkoumat, vyčistit a transformovat datovou sadu obsahující stav četnosti změn 10 000 zákazníků v bance. Pak vytvoříte model strojového učení, který předpovídá, kteří zákazníci z banky pravděpodobně odejdou.

Naučíte se provádět následující aktivity:

Poznámkové bloky Fabric použijte pro scénáře datových věd.
Vkládání dat do Fabric Lakehouse pomocí Apache Spark
Načtěte existující data z tabulek delta lakehouse.
Vyčistěte a transformujte data pomocí nástrojů založených na Apache Sparku a Pythonu.
Vytvářejte experimenty a běhy pro trénování různých modelů strojového učení.
Registrace a sledování natrénovaných modelů pomocí MLflow a uživatelského rozhraní Fabric
Spusťte zpracování výsledků ve velkém měřítku a uložte předpovědi a výsledky inference do lakehouse.
Vizualizace předpovědí v Power BI pomocí DirectLake

Architektura

V této sérii kurzů představujeme zjednodušený komplexní scénář datových věd, který zahrnuje:

Různé komponenty scénáře datových věd

zdroje dat – Platforma Fabric umožňuje snadné a rychlé připojení k Azure Data Services, dalším cloudovým platformám a místním zdrojům dat pro získávání dat. Pomocí Fabric poznámkových bloků můžete načítat data z vestavěného Lakehouse, Data Warehouse, sémantických modelů a různých vlastních zdrojů dat podporovaných Apache Spark a Python. Tato série kurzů se zaměřuje na ingestování a načítání dat z jezera.

Prozkoumání, vyčištění a příprava – prostředí pro datové vědy v rámci Fabric podporuje čištění dat, transformaci, zkoumání a tvorbu vlastností pomocí integrovaných zkušeností ve Spark a také nástrojů založených na Pythonu, jako jsou Data Wrangler a knihovna SemPy. Tento kurz předvede zkoumání dat pomocí knihovny Pythonu seaborn a čištění a přípravy dat pomocí Apache Sparku.

Modely a experimenty – Fabric umožňuje trénovat, vyhodnocovat a skórovat modely strojového učení pomocí integrovaných položek experimentů a modelů s bezproblémovou integrací s MLflow pro sledování experimentů a registraci/nasazení modelu. Tkanina také obsahuje možnosti pro predikci modelu ve velkém měřítku (PREDICT) k získání a sdílení obchodních vhledů.

Storage – Platforma Fabric se standardizuje na Delta Lake, což znamená, že všechny enginy platformy Fabric mohou pracovat se stejnou datovou sadou uloženou v lakehouse. Tato vrstva úložiště umožňuje ukládat strukturovaná i nestrukturovaná data, která podporují ukládání na základě souborů i tabulkového formátu. K datovým sadám a souborům, které jsou uložené, je možné snadno přistupovat prostřednictvím všech položek prostředí Fabric, jako jsou poznámkové bloky a kanály.

Zveřejnění analýzy a přehledů – Data z lakehouse může být využívána Power BI, předním nástrojem business intelligence pro vytváření sestav a vizualizaci. Data uložená v jezeře je možné vizualizovat také v poznámkových blocích pomocí nativních knihoven vizualizace Sparku nebo Pythonu, jako jsou matplotlib, seaborn, plotlya další. Data je možné vizualizovat také pomocí knihovny SemPy, která podporuje integrované vizualizace specifické pro konkrétní úlohy pro sémantický datový model, pro závislosti a jejich porušení a pro případy použití klasifikace a regrese.

Další krok

příprava systému na kurz datových věd

Sdílet prostřednictvím

Kompletní scénář datové vědy: úvod a architektura

Úvod

Architektura

Různé komponenty scénáře datových věd

Další krok

Váš názor

Další materiály