Sdílet prostřednictvím


Kompletní scénář datové vědy: úvod a architektura

Tato sada kurzů ukazuje ukázkový kompletní scénář v prostředí pro datové vědy Fabric. Každý krok implementujete od příjmu dat, čištění a přípravy až po trénování modelů strojového učení a generování přehledů a následné využití těchto přehledů pomocí vizualizačních nástrojů, jako je Power BI.

Pokud s Microsoft Fabric začínáte, přečtěte si téma Co je Microsoft Fabric?.

Úvod

Životní cyklus projektu datových věd obvykle zahrnuje (často iterativní) následující kroky:

  • Obchodní porozumění
  • Získávání dat
  • Zkoumání, čištění, příprava a vizualizace dat
  • Trénování modelů a sledování experimentů
  • Modelování bodování a generování přehledů

Cíle a kritéria úspěchu jednotlivých fází závisí na spolupráci, sdílení dat a dokumentaci. Prostředí pro datové vědy Fabric se skládá z několika nativních funkcí, které umožňují bezproblémovou spolupráci, získávání dat, sdílení a spotřebu.

V těchto kurzech převezmete roli datového vědce, který dostal úkol prozkoumat, vyčistit a transformovat datovou sadu obsahující stav četnosti změn 10 000 zákazníků v bance. Pak vytvoříte model strojového učení, který předpovídá, kteří zákazníci z banky pravděpodobně odejdou.

Naučíte se provádět následující aktivity:

  1. Poznámkové bloky Fabric použijte pro scénáře datových věd.
  2. Vkládání dat do Fabric Lakehouse pomocí Apache Spark
  3. Načtěte existující data z tabulek delta lakehouse.
  4. Vyčistěte a transformujte data pomocí nástrojů založených na Apache Sparku a Pythonu.
  5. Vytvářejte experimenty a běhy pro trénování různých modelů strojového učení.
  6. Registrace a sledování natrénovaných modelů pomocí MLflow a uživatelského rozhraní Fabric
  7. Spusťte zpracování výsledků ve velkém měřítku a uložte předpovědi a výsledky inference do lakehouse.
  8. Vizualizace předpovědí v Power BI pomocí DirectLake

Architektura

V této sérii kurzů představujeme zjednodušený komplexní scénář datových věd, který zahrnuje:

  1. Ingestování dat z externího zdroje dat.
  2. Prozkoumat a vyčistit data.
  3. Trénování a registrace modelů strojového učení.
  4. Provádět dávkové vyhodnocování a ukládat předpovědi.
  5. Vizualizovat výsledky předpovědi v Power BI.

diagram komplexních komponent scénáře datových věd

Různé komponenty scénáře datových věd

zdroje dat – Platforma Fabric umožňuje snadné a rychlé připojení k Azure Data Services, dalším cloudovým platformám a místním zdrojům dat pro získávání dat. Pomocí Fabric poznámkových bloků můžete načítat data z vestavěného Lakehouse, Data Warehouse, sémantických modelů a různých vlastních zdrojů dat podporovaných Apache Spark a Python. Tato série kurzů se zaměřuje na ingestování a načítání dat z jezera.

Prozkoumání, vyčištění a příprava – prostředí pro datové vědy v rámci Fabric podporuje čištění dat, transformaci, zkoumání a tvorbu vlastností pomocí integrovaných zkušeností ve Spark a také nástrojů založených na Pythonu, jako jsou Data Wrangler a knihovna SemPy. Tento kurz předvede zkoumání dat pomocí knihovny Pythonu seaborn a čištění a přípravy dat pomocí Apache Sparku.

Modely a experimenty – Fabric umožňuje trénovat, vyhodnocovat a skórovat modely strojového učení pomocí integrovaných položek experimentů a modelů s bezproblémovou integrací s MLflow pro sledování experimentů a registraci/nasazení modelu. Tkanina také obsahuje možnosti pro predikci modelu ve velkém měřítku (PREDICT) k získání a sdílení obchodních vhledů.

Storage – Platforma Fabric se standardizuje na Delta Lake, což znamená, že všechny enginy platformy Fabric mohou pracovat se stejnou datovou sadou uloženou v lakehouse. Tato vrstva úložiště umožňuje ukládat strukturovaná i nestrukturovaná data, která podporují ukládání na základě souborů i tabulkového formátu. K datovým sadám a souborům, které jsou uložené, je možné snadno přistupovat prostřednictvím všech položek prostředí Fabric, jako jsou poznámkové bloky a kanály.

Zveřejnění analýzy a přehledů – Data z lakehouse může být využívána Power BI, předním nástrojem business intelligence pro vytváření sestav a vizualizaci. Data uložená v jezeře je možné vizualizovat také v poznámkových blocích pomocí nativních knihoven vizualizace Sparku nebo Pythonu, jako jsou matplotlib, seaborn, plotlya další. Data je možné vizualizovat také pomocí knihovny SemPy, která podporuje integrované vizualizace specifické pro konkrétní úlohy pro sémantický datový model, pro závislosti a jejich porušení a pro případy použití klasifikace a regrese.

Další krok