End-to-end-scenario voor data science: inleiding en architectuur
In deze reeks tutorials wordt een volledig doorlopend voorbeeldscenario getoond in de data science-omgeving van Fabric. U implementeert elke stap van gegevensopname, opschoning en voorbereiding om machine learning-modellen te trainen en inzichten te genereren en deze inzichten vervolgens te gebruiken met behulp van visualisatiehulpprogramma's zoals Power BI.
Als u nieuw bent bij Microsoft Fabric, zie Wat is Microsoft Fabric?.
Introductie
De levenscyclus van een Data science-project omvat doorgaans (vaak, iteratief) de volgende stappen:
- Bedrijfskennis
- Gegevens ophalen
- Gegevensverkenning, opschoning, voorbereiding en visualisatie
- Modeltraining en experimenten bijhouden
- Modelscore en het genereren van inzichten.
De doelstellingen en succescriteria van elke fase zijn afhankelijk van samenwerking, het delen van gegevens en documentatie. De Data Science-ervaring van Fabric bestaat uit meerdere ingebouwde functies die samenwerking, gegevensverwerving, delen en verbruik op een naadloze manier mogelijk maken.
In deze zelfstudies neemt u de rol van een data scientist die de taak heeft gekregen om een gegevensset met de verloopstatus van 10.000 klanten bij een bank te verkennen, op te schonen en te transformeren. Vervolgens bouwt u een machine learning-model om te voorspellen welke bankklanten waarschijnlijk vertrekken.
U leert de volgende activiteiten uit te voeren:
- Gebruik de Fabric-notebooks voor data science-scenario's.
- Gegevens opnemen in een Fabric Lakehouse met behulp van Apache Spark.
- Laad bestaande gegevens uit de lakehouse-deltatabellen.
- Gegevens opschonen en transformeren met hulpprogramma's op basis van Apache Spark en Python.
- Maak experimenten en uitvoeringen om verschillende machine learning-modellen te trainen.
- Registreer getrainde modellen en volg ze met behulp van MLflow en de gebruikersinterface van Fabric.
- Voer scorebewerkingen op schaal uit en sla voorspellingen en resultaten op in het lakehouse.
- Visualiseer voorspellingen in Power BI met DirectLake.
Architectuur
In deze reeks zelfstudies laten we een vereenvoudigd end-to-end data science-scenario zien dat betrekking heeft op:
- gegevens opnemen uit een externe gegevensbron.
- gegevens verkennen en opschonen.
- Trainen en registreren van machine learning-modellen.
- batchgewijs scoren en voorspellingenopslaan.
- voorspellingsresultaten visualiseren in Power BI-.
Verschillende onderdelen van het data science-scenario
gegevensbronnen - Fabric maakt het eenvoudig en snel om verbinding te maken met Azure Data Services, andere cloudplatforms en on-premises gegevensbronnen om gegevens op te nemen. Met Fabric Notebooks kunt u gegevens opnemen uit de ingebouwde Lakehouse-, Data Warehouse-, semantische modellen en verschillende aangepaste gegevensbronnen van Apache Spark en Python. Deze reeks handleidingen is geconcentreerd op het opnemen en laden van gegevens uit een lakehouse.
Verkennen, opschonen en voorbereiden: de data science-ervaring in Fabric ondersteunt het opschonen van gegevens, transformatie, verkennen en featurization met behulp van ingebouwde ervaringen in Spark, evenals python-hulpprogramma's zoals Data Wrangler en SemPy Library. In deze zelfstudie wordt het verkennen van gegevens gedemonstreerd met behulp van de Python-bibliotheek seaborn
en het opschonen en voorbereiden van gegevens met behulp van Apache Spark.
modellen en experimenten - Met Fabric kunt u machine learning-modellen trainen, evalueren en beoordelen met behulp van ingebouwd experiment en modelitems met naadloze integratie met MLflow- voor het bijhouden van experimenten en modelregistratie/implementatie. Fabric bevat ook mogelijkheden voor modelvoorspelling op schaal (PREDICT) om zakelijke inzichten te verkrijgen en te delen.
Storage - Fabric standaardiseert op Delta Lake, wat betekent dat alle engines van Fabric kunnen communiceren met dezelfde gegevensset die is opgeslagen in een lakehouse. Met deze opslaglaag kunt u zowel gestructureerde als ongestructureerde gegevens opslaan die zowel bestandsopslag als tabellaire indeling ondersteunen. De opgeslagen gegevenssets en bestanden kunnen eenvoudig worden geopend via alle onderdelen van de Fabric-ervaring, waaronder notebooks en pijplijnen.
Analyse en inzichten beschikbaar maken : Gegevens uit een lakehouse kunnen worden gebruikt door Power BI, het toonaangevende zakelijke intelligentie-hulpprogramma voor rapportage en visualisatie. Gegevens die in lakehouse worden bewaard, kunnen ook worden gevisualiseerd in notebooks met behulp van systeemeigen Spark- of Python-visualisatiebibliotheken zoals matplotlib
, seaborn
, plotly
en meer. Gegevens kunnen ook worden gevisualiseerd met behulp van de SemPy-bibliotheek die ingebouwde uitgebreide, taakspecifieke visualisaties voor het semantische gegevensmodel ondersteunt, voor afhankelijkheden en hun schendingen, en voor classificatie- en regressiegebruiksscenario's.