Dela via


Scenario för datavetenskap från slutpunkt till slutpunkt: introduktion och arkitektur

Den här uppsättningen handledningar demonstrerar ett exempel på ett slut-till-slut-scenario inom Fabric-datavetenskapens upplevelse. Du implementerar varje steg från datainmatning, rensning och förberedelse till att träna maskininlärningsmodeller och generera insikter och sedan använda dessa insikter med hjälp av visualiseringsverktyg som Power BI.

Om du inte har använt Microsoft Fabric tidigare kan du läsa Vad är Microsoft Fabric?.

Introduktion

Livscykeln för ett datavetenskapsprojekt innehåller vanligtvis (ofta iterativt) följande steg:

  • Affärsförståelse
  • Datainsamling
  • Datautforskning, rensning, förberedelse och visualisering
  • Modellträning och experimentspårning
  • Modellera bedömning och generera insikter.

Målen och framgångskriterierna för varje fas beror på samarbete, datadelning och dokumentation. Data science-upplevelsen i Fabric består av flera inbyggda funktioner som möjliggör samarbete, datainsamling, delning och förbrukning på ett sömlöst sätt.

I de här självstudierna tar du rollen som dataexpert som har fått uppgiften att utforska, rensa och transformera en datauppsättning som innehåller omsättningsstatus för 10 000 kunder på en bank. Sedan skapar du en maskininlärningsmodell för att förutsäga vilka bankkunder som sannolikt kommer att lämna.

Du får lära dig att utföra följande aktiviteter:

  1. Använd fabric notebook-filer för datavetenskapsscenarier.
  2. Läs in data i ett Fabric lakehouse med Apache Spark.
  3. Läs in befintliga data från lakehouse delta-tabellerna.
  4. Rensa och transformera data med hjälp av Apache Spark- och Python-baserade verktyg.
  5. Skapa experiment och körningar för att träna olika maskininlärningsmodeller.
  6. Registrera och spåra tränade modeller med MLflow och Fabric UI.
  7. Kör bedömning i stor skala och spara förutsägelser och slutsatsdragningsresultat till lakehouse.
  8. Visualisera förutsägelser i Power BI med DirectLake.

Arkitektur

I den här självstudieserien visar vi ett förenklat datavetenskapsscenario från slutpunkt till slutpunkt som omfattar:

  1. mata in data från en extern datakälla.
  2. Utforska och rensa data.
  3. Träna och registrera maskininlärningsmodeller.
  4. Utför batchbedömning och spara förutsägelser.
  5. Visualisera förutsägelseresultat i Power BI.

diagram över komponenterna för datavetenskap från slutpunkt till slutpunkt.

Olika komponenter i scenariot för datavetenskap

Datakällor – Infrastruktur gör det enkelt och snabbt att ansluta till Azure Data Services, andra molnplattformar och lokala datakällor att mata in data från. Med hjälp av Fabric Notebooks kan du mata in data från inbyggda Lakehouse, Data Warehouse, semantiska modeller och olika Apache Spark- och Python-datakällor som stöds. Den här självstudieserien fokuserar på att mata in och läsa in data från ett sjöhus.

Utforska, rensa och förbereda – Data science-upplevelsen i Fabric stöder datarensning, omvandling, utforskning och funktionalisering med hjälp av inbyggda upplevelser på Spark samt Python-baserade verktyg som Data Wrangler och SemPy Library. Den här handledningen visar datautforskning med Python-biblioteket seaborn och datarening och förberedelse med Apache Spark.

modeller och experiment – Med Infrastruktur kan du träna, utvärdera och poängsätta maskininlärningsmodeller med hjälp av inbyggda experiment- och modellobjekt med sömlös integrering med MLflow- för experimentspårning och modellregistrering/distribution. Plattformen erbjuder också möjligheter för modellprediktion i stor skala (PREDICT) för att få och dela affärsinsikter.

Storage – Fabric standardiseras på Delta Lake, vilket innebär att alla motorer i Fabric kan interagera med samma datauppsättning som lagras i ett sjöhus. Med det här lagringslagret kan du lagra både strukturerade och ostrukturerade data som stöder både filbaserad lagring och tabellformat. Datauppsättningar och filer som lagras kan enkelt nås via alla objekt i Fabric experience, till exempel anteckningsblock och pipelines.

Exponera analys och insikter – Data från ett sjöhus kan användas av Power BI, branschledande business intelligence-verktyg, för rapportering och visualisering. Data som sparas i lakehouse kan också visualiseras i notebooks med hjälp av inbyggda visualiseringsbibliotek som Spark eller Python, till exempel matplotlib, seaborn, plotlyoch mycket mer. Data kan också visualiseras med hjälp av SemPy-biblioteket som stöder inbyggda omfattande, uppgiftsspecifika visualiseringar för semantisk datamodell, för beroenden och deras överträdelser samt för användningsfall för klassificering och regression.

Nästa steg