Wat is Datawetenschap in Microsoft Fabric?
Microsoft Fabric biedt Datawetenschap ervaringen waarmee gebruikers end-to-end data science-werkstromen kunnen voltooien voor het doel van gegevensverrijking en zakelijke inzichten. U kunt een breed scala aan activiteiten uitvoeren in het hele data science-proces, helemaal van gegevensverkenning, voorbereiding en opschoning tot experimenten, modellering, modelscore en het leveren van voorspellende inzichten aan BI-rapporten.
Microsoft Fabric-gebruikers hebben toegang tot een Datawetenschap startpagina. Van daaruit kunnen ze verschillende relevante resources detecteren en openen. Ze kunnen bijvoorbeeld machine learning-experimenten, modellen en notebooks maken. Ze kunnen ook bestaande notitieblokken importeren op de startpagina van Datawetenschap.
Misschien weet u hoe een typisch data science-proces werkt. Als bekend proces volgen de meeste machine learning-projecten het.
Op hoog niveau omvat het proces de volgende stappen:
- Probleemformulering en ideeën
- Gegevensdetectie en -voorverwerking
- Experimenten en modellering
- Verrijken en operationeel maken
- Inzichten verwerven
In dit artikel worden de mogelijkheden van Microsoft Fabric Datawetenschap vanuit het perspectief van een data science-proces beschreven. Voor elke stap in het data science-proces bevat dit artikel een overzicht van de mogelijkheden van Microsoft Fabric die u kunnen helpen.
Probleemformulering en ideeën
Datawetenschap gebruikers in Microsoft Fabric werken op hetzelfde platform als zakelijke gebruikers en analisten. Gegevens delen en samenwerken worden naadlooser in verschillende rollen als gevolg hiervan. Analisten kunnen eenvoudig Power BI-rapporten en -gegevenssets delen met gegevenswetenschapsbeoefenaars. Het gemak van samenwerking tussen rollen in Microsoft Fabric maakt hand-offs tijdens de formuleringsfase van het probleem veel eenvoudiger.
Gegevensdetectie en -voorverwerking
Microsoft Fabric-gebruikers kunnen communiceren met gegevens in OneLake met behulp van het Lakehouse-item. Lakehouse koppelt eenvoudig aan een notebook om door gegevens te bladeren en ermee te werken.
Gebruikers kunnen eenvoudig gegevens uit een Lakehouse rechtstreeks lezen in een Pandas-dataframe. Voor onderzoek zorgt dit ervoor dat naadloze gegevens worden gelezen uit OneLake.
Een krachtige set hulpprogramma's is beschikbaar voor pijplijnen voor gegevensopname en gegevensindeling met pijplijnen voor gegevensintegratie, een systeemeigen geïntegreerd onderdeel van Microsoft Fabric. Eenvoudig te bouwen gegevenspijplijnen kunnen de gegevens openen en transformeren in een indeling die machine learning kan gebruiken.
Gegevens verkennen
Een belangrijk onderdeel van het machine learning-proces is het begrijpen van gegevens door middel van verkenning en visualisatie.
Afhankelijk van de locatie voor gegevensopslag biedt Microsoft Fabric een set verschillende hulpprogramma's voor het verkennen en voorbereiden van de gegevens voor analyse en machine learning. Notebooks worden een van de snelste manieren om aan de slag te gaan met gegevensverkenning.
Apache Spark en Python voor gegevensvoorbereiding
Microsoft Fabric biedt mogelijkheden om uw gegevens op schaal te transformeren, voorbereiden en verkennen. Met Spark kunnen gebruikers gebruikmaken van PySpark/Python-, Scala- en SparkR-/SparklyR-hulpprogramma's voor gegevensverwerking op schaal. Krachtige opensource-visualisatiebibliotheken kunnen de ervaring voor gegevensverkenning verbeteren om meer inzicht te krijgen in de gegevens.
Data Wrangler voor naadloze gegevensopschoning
De Microsoft Fabric Notebook-ervaring heeft een functie toegevoegd voor het gebruik van Data Wrangler, een codehulpprogramma waarmee gegevens worden voorbereid en Python-code wordt gegenereerd. Deze ervaring maakt het eenvoudig om tijdrovende en alledaagse taken te versnellen, zoals het opschonen van gegevens en het bouwen van herhaalbaarheid en automatisering via gegenereerde code. Meer informatie over Data Wrangler vindt u in de sectie Data Wrangler van dit document.
Experimenten en ML-modellering
Met hulpprogramma's zoals PySpark/Python, SparklyR/R kunnen notebooks machine learning-modeltraining verwerken.
ML-algoritmen en -bibliotheken kunnen helpen bij het trainen van machine learning-modellen. Hulpprogramma's voor bibliotheekbeheer kunnen deze bibliotheken en algoritmen installeren. Gebruikers hebben daarom de mogelijkheid om een groot aantal populaire machine learning-bibliotheken te gebruiken om hun ML-modeltraining in Microsoft Fabric te voltooien.
Daarnaast kunnen populaire bibliotheken zoals Scikit Learn ook modellen ontwikkelen.
MLflow-experimenten en -uitvoeringen kunnen de ML-modeltraining volgen. Microsoft Fabric biedt een ingebouwde MLflow-ervaring waarmee gebruikers kunnen communiceren, om experimenten en modellen te registreren. Meer informatie over het gebruik van MLflow voor het bijhouden van experimenten en het beheren van modellen in Microsoft Fabric.
SynapseML
De opensourcebibliotheek van SynapseML (voorheen mmlspark genoemd) die Microsoft bezit en onderhoudt, vereenvoudigt het maken van zeer schaalbare machine learning-pijplijnen. Als ecosysteem van hulpprogramma's wordt het Apache Spark-framework in verschillende nieuwe richtingen uitgebreid. SynapseML integreert verschillende bestaande machine learning-frameworks en nieuwe Microsoft-algoritmen in één schaalbare API. De opensource SynapseML-bibliotheek bevat een uitgebreid ecosysteem van ML-hulpprogramma's voor het ontwikkelen van voorspellende modellen, en het gebruik van vooraf getrainde AI-modellen van Azure AI-services. Meer informatie over SynapseML.
Verrijken en operationeel maken
Notebooks kunnen batchgewijs scoren van machine learning-modellen verwerken met opensource-bibliotheken voor voorspelling of de schaalbare universele Spark Predict-functie van Microsoft Fabric, die ondersteuning biedt voor MLflow-verpakte modellen in het Microsoft Fabric-modelregister.
Inzichten verwerven
In Microsoft Fabric kunnen voorspelde waarden eenvoudig naar OneLake worden geschreven en naadloos worden gebruikt vanuit Power BI-rapporten, met de Direct Lake-modus van Power BI. Dit maakt het heel eenvoudig voor data science-beoefenaars om resultaten van hun werk met belanghebbenden te delen en het vereenvoudigt ook de uitoefening.
Notebooks die batchgewijs scoren bevatten, kunnen worden gepland om te worden uitgevoerd met behulp van de notebook-planningsmogelijkheden. Batchgewijs scoren kan ook worden gepland als onderdeel van gegevenspijplijnactiviteiten of Spark-taken. Power BI haalt automatisch de meest recente voorspellingen op zonder dat de gegevens hoeven te worden geladen of vernieuwd, dankzij de Direct Lake-modus in Microsoft Fabric.
Gegevensverkenning met semantische koppeling (preview)
Belangrijk
Deze functie is beschikbaar als preview-versie.
Gegevenswetenschappers en bedrijfsanalisten besteden veel tijd aan het begrijpen, opschonen en transformeren van gegevens voordat ze een zinvolle analyse kunnen starten. Bedrijfsanalisten werken doorgaans met semantische modellen en coderen hun domeinkennis en bedrijfslogica in Power BI-metingen. Aan de andere kant kunnen gegevenswetenschappers met dezelfde gegevens werken, maar meestal in een andere codeomgeving of taal.
Met Semantische koppeling (preview) kunnen gegevenswetenschappers een verbinding tot stand brengen tussen semantische Power BI-modellen en de Synapse-Datawetenschap in Microsoft Fabric via de SemPy Python-bibliotheek. SemPy vereenvoudigt gegevensanalyse door gegevenssemantiek vast te leggen en te gebruiken als gebruikers verschillende transformaties uitvoeren op de semantische modellen. Door gebruik te maken van een semantische koppeling, kunnen gegevenswetenschappers het volgende doen:
- voorkom dat bedrijfslogica en domeinkennis opnieuw moeten worden geïmplementeerd in hun code
- eenvoudig Power BI-metingen in hun code openen en gebruiken
- semantiek gebruiken om nieuwe ervaringen mogelijk te maken, zoals semantische functies
- functionele afhankelijkheden en relaties tussen gegevens verkennen en valideren
Door gebruik te maken van SemPy kunnen organisaties verwachten dat:
- verhoogde productiviteit en snellere samenwerking tussen teams die op dezelfde gegevenssets werken
- verbeterde samenwerking tussen business intelligence- en AI-teams
- minder dubbelzinnigheid en een eenvoudigere leercurve bij het onboarden op een nieuw model of een nieuwe gegevensset
Zie Wat is een semantische koppeling (preview)? voor meer informatie over semantische koppeling.
Gerelateerde inhoud
- Aan de slag met end-to-end voorbeelden van gegevenswetenschap, zie Datawetenschap zelfstudies
- Meer informatie over het voorbereiden en opschonen van gegevens met Data Wrangler, zie Data Wrangler
- Meer informatie over het bijhouden van experimenten, zie Machine Learning-experiment
- Meer informatie over het beheren van modellen, zie Machine Learning-model
- Meer informatie over batchgewijs scoren met Predict, zie Scoremodellen met PREDICT
- Voorspellingen van Lakehouse naar Power BI leveren met direct lake-modus