Sdílet prostřednictvím


Co jsou datové vědy v Microsoft Fabric?

Microsoft Fabric nabízí prostředí pro datové vědy, které uživatelům umožní kompletní pracovní postupy datových věd pro účely rozšiřování dat a obchodních přehledů. Můžete dokončit širokou škálu aktivit napříč celým procesem datové vědy, včetně zkoumání dat, přípravy a čištění až po experimentování, modelování, hodnocení modelů a poskytování prediktivních přehledů zprávám BI (business intelligence).

Uživatelé Microsoft Fabric mají přístup na domovskou stránku datové vědy. Odtud můžou zjišťovat a přistupovat k různým relevantním prostředkům. Můžou například vytvářet experimenty, modely a poznámkové bloky strojového učení. Můžou také importovat existující poznámkové bloky na domovské stránce datové vědy.

snímek obrazovky s domovskou stránkou datové vědy

Možná víte, jak funguje typický proces datových věd. Většina projektů strojového učení se řídí dobře známým procesem.

Proces na vysoké úrovni zahrnuje tyto kroky:

  • Formulace problému a generování nápadů
  • Zjišťování a předběžné zpracování dat
  • Experimentování a modelování
  • Rozšiřování a zprovoznění
  • Získání přehledů

diagram procesu datových věd

Tento článek popisuje možnosti datových věd Microsoft Fabric z hlediska procesu datových věd. Pro každý krok procesu datových věd tento článek shrnuje možnosti Microsoft Fabric, které vám můžou pomoct.

Formulace problému a generování nápadů

Uživatelé datových věd v Microsoft Fabric pracují na stejné platformě jako firemní uživatelé a analytici. Díky tomu je sdílení dat a spolupráce v různých rolích plynulejší. Analytici můžou snadno sdílet sestavy a datové sady Power BI s odborníky na datové vědy. Snadná spolupráce mezi rolemi v Microsoft Fabric usnadňuje předávání během fáze formulace problému.

Zjišťování a předběžné zpracování dat

Uživatelé Microsoft Fabric můžou pracovat s daty ve OneLake pomocí položky Lakehouse. Lakehouse se snadno připojí k poznámkovému bloku a umožňuje procházet data a pracovat s nimi.

Uživatelé mohou snadno číst data z Lakehouse přímo do datového rámce Pandas. Při zkoumání to umožňuje bezproblémová čtení dat z OneLake.

K dispozici je výkonná sada nástrojů pro příjem dat, kanály pro orchestrace dat a kanály pro integraci dat, což jsou nativně integrované součásti Microsoft Fabric. Snadno sestavitelné datové kanály mohou přistupovat k datům a transformovat je do formátu, který může strojové učení využívat.

Zkoumání dat

Důležitou součástí procesu strojového učení je pochopení dat prostřednictvím zkoumání a vizualizace.

V závislosti na umístění úložiště dat nabízí Microsoft Fabric sadu různých nástrojů pro zkoumání a přípravu dat pro analýzu a strojové učení. Poznámkové bloky se stávají jedním z nejrychlejších způsobů, jak začít zkoumat data.

Apache Spark a Python pro přípravu dat

Microsoft Fabric nabízí možnosti transformace, přípravy a zkoumání dat ve velkém měřítku. S Sparkem můžou uživatelé využívat nástroje PySpark/Python, Scala a SparkR/SparklyR pro předběžné zpracování dat ve velkém měřítku. Výkonné opensourcové knihovny vizualizací můžou vylepšit prostředí pro zkoumání dat, aby lépe porozuměly datům.

Nástroj pro zpracování dat pro bezproblémové čištění dat

Prostředí Poznámkového bloku Microsoft Fabric získalo funkci pro použití Data Wranglera, nástroje na kódování, který připravuje data a generuje Pythonový kód. Díky tomuto prostředí je snadné zrychlit zdlouhavé a běžné úlohy – například čištění dat a vytváření opakovatelnosti a automatizace prostřednictvím generovaného kódu. Další informace o službě Data Wrangler najdete v části Data Wrangler tohoto dokumentu.

Experimentování a modelování ML

S nástroji jako PySpark/Python, SparklyR/R mohou poznámkové bloky provádět trénování modelů strojového učení.

Algoritmy a knihovny STROJOVÉho učení můžou pomoct trénovat modely strojového učení. Nástroje pro správu knihoven mohou tyto knihovny a algoritmy nainstalovat. Uživatelé proto mají možnost využít k dokončení trénování modelu STROJOVÉho učení v Microsoft Fabric širokou škálu oblíbených knihoven strojového učení.

Kromě toho můžou oblíbené knihovny, jako je Scikit Learn, vyvíjet také modely.

Experimenty a běhy MLflow můžou sledovat trénování modelu ML. Microsoft Fabric nabízí integrované prostředí MLflow, se kterým můžou uživatelé pracovat a protokolovat experimenty a modely. Přečtěte si další informace o tom, jak používat MLflow ke sledování experimentů a správě modelů v Microsoft Fabric.

SynapseML

Opensourcová knihovna SynapseML (dříve označovaná jako MMLSpark), kterou Microsoft vlastní a udržuje, zjednodušuje masivně škálovatelné vytváření kanálů strojového učení. Jako ekosystém nástrojů rozšiřuje architekturu Apache Sparku několika novými směry. SynapseML sjednocuje několik existujících architektur strojového učení a nových algoritmů Microsoftu do jednoho škálovatelného rozhraní API. Opensourcová knihovna SynapseML zahrnuje bohatý ekosystém nástrojů ML pro vývoj prediktivních modelů a také využití předem natrénovaných modelů AI ze služeb Azure AI. Přečtěte si další informace o SynapseML.

Rozšiřování a zprovoznění

Sešity mohou zpracovávat hodnocení dávek modelů strojového učení pomocí knihoven s otevřenými zdrojovými kódy pro predikci nebo škálovatelnou univerzální funkcí Spark Predict pro Microsoft Fabric, která podporuje zabalené modely MLflow v registru modelů Microsoft Fabric.

Získání přehledů

V Microsoft Fabric lze predikované hodnoty snadno zapsat do OneLake a bez problémů konzumovat v sestavách Power BI s využitím režimu Power BI Direct Lake. To usnadňuje odborníkům na datové vědy sdílení výsledků z jejich práce se zúčastněnými stranami a také zjednodušuje operacionalizaci.

Poznámkové bloky, které obsahují dávkové bodování, je možné naplánovat tak, aby běžely pomocí možností plánování poznámkového bloku. Dávkové vyhodnocování lze také naplánovat jako součást aktivit datových kanálů nebo úloh Spark. Power BI automaticky získá nejnovější předpovědi bez nutnosti načítání nebo aktualizace dat díky režimu Direct Lake v Microsoft Fabric.

Datoví vědci a obchodní analytici tráví spoustu času tím, že se snaží pochopit, vyčistit a transformovat data, než začnou provádět smysluplnou analýzu. Obchodní analytici obvykle pracují s sémantickými modely a kódují znalosti domény a obchodní logiku do měr Power BI. Na druhou stranu datoví vědci můžou pracovat se stejnými daty, ale obvykle v jiném prostředí nebo jazyce kódu.

Sémantický odkaz umožňuje datovým vědcům vytvořit propojení mezi sémantickými modely Power BI a Synapse Data Science v prostředí Microsoft Fabric prostřednictvím knihovny SemPy Python. SemPy zjednodušuje analýzu dat zachytáváním a využíváním sémantiky dat, protože uživatelé provádějí různé transformace sémantických modelů. Pomocí sémantického propojení můžou datoví vědci:

  • vyhnout se nutnosti opětovné implementace obchodní logiky a znalostí domény v kódu
  • snadný přístup k mírám Power BI a jejich používání v kódu
  • použití sémantiky k napájení nových prostředí, jako jsou sémantické funkce
  • prozkoumání a ověření funkčních závislostí a vztahů mezi daty

Díky použití SemPy mohou organizace očekávat, že uvidí:

  • vyšší produktivita a rychlejší spolupráce napříč týmy, které pracují se stejnými datovými sadami
  • větší spolupráce napříč týmy business intelligence a umělé inteligence
  • menší nejednoznačnost a jednodušší křivka učení při připojování k novému modelu nebo datové sadě

Další informace o sémantickém odkazu najdete v tématu Co je sémantický odkaz?.