Inleiding
Data science is een multidisciplinair veld dat gebruikmaakt van wetenschappelijke methoden, processen, algoritmen en hulpprogramma's om kennis en inzichten uit gestructureerde en ongestructureerde gegevens te extraheren.
In een typisch data science-project is het gebruikelijk om te beginnen met de EDA (Exploratory Data Analysis), waarbij het gaat om het begrijpen van de patronen, het herkennen van afwijkingen en het controleren van veronderstellingen met betrekking tot de onderliggende gegevens.
Zodra u dit begrijpt, kunt u verdergaan met de voorverwerkingsfase. Hier kunt u de problemen met de gegevenskwaliteit oplossen die tijdens EDA zijn geïdentificeerd en uw gegevens voorbereiden voor modellering. Met voorverwerking worden onbewerkte gegevens omgezet in een begrijpelijke indeling voor machine learning-algoritmen, waardoor de mogelijkheid om nauwkeurige voorspellingen te doen, wordt verbeterd.
Data Wrangler in Microsoft Fabric biedt een grafische ervaring waarmee u eenvoudig code kunt genereren voor verkennings- en voorverwerkingsdoeleinden en ervoor zorgt dat uw gegevens de best mogelijke vorm hebben voordat ze worden gebruikt om een machine learning-model te trainen.
Inzicht in het data science-proces
Gegevensvoorverwerking is een voorbereidende voorbereiding van de gegevens waarmee de fase wordt ingesteld voor alle volgende stappen in het data science-proces.
- Definieer het probleem: bepaal samen met zakelijke gebruikers en analisten wat het model moet voorspellen en wanneer het succesvol is.
- Haal de gegevens op: Zoek gegevensbronnen en krijg toegang door uw gegevens op te slaan in een Lakehouse.
- De gegevens voorbereiden: verken de gegevens door deze vanuit een Lakehouse in een notebook te lezen. Schoon en transformeer de gegevens op basis van de vereisten van het model.
- Het model trainen: Kies een algoritme en hyperparameterwaarden op basis van de evaluatie en fout door uw experimenten bij te houden met MLflow.
- Inzichten genereren: modelbatchscore gebruiken om de aangevraagde voorspellingen te genereren.
In deze module ligt de focus op het vooraf verwerken van gegevens met behulp van Data Wrangler. U werkt in een Microsoft Fabric-notebook, met zowel Data Wrangler als Python voor gegevensverkenning. U leert hoe u ontbrekende gegevens beheert en verschillende operators gebruikt om gegevens te transformeren voor een modelbouwpijplijn. Ten slotte krijgt u praktische ervaring met het vooraf verwerken van gegevens met behulp van Data Wrangler in Microsoft Fabric-notebooks via een praktische oefening.