Inleiding

Voltooid

Data science is een multidisciplinair veld dat gebruikmaakt van wetenschappelijke methoden, processen, algoritmen en hulpprogramma's om kennis en inzichten uit gestructureerde en ongestructureerde gegevens te extraheren.

In een typisch data science-project is het gebruikelijk om te beginnen met de EDA (Exploratory Data Analysis), waarbij het gaat om het begrijpen van de patronen, het herkennen van afwijkingen, het testen van hypothesen en het controleren van veronderstellingen met betrekking tot de onderliggende gegevens.

De inzichten die zijn verkregen uit EDA kunnen gegevenswetenschappers helpen bij het kiezen van de juiste statistische of machine learning-modellen die het beste bij de gegevens passen.

Met Microsoft Fabric-notebooks kunt u uw verkenningsresultaten naadloos integreren in een data science-werkstroom. Dit kan vervolgens worden gebruikt voor het invoeren van een upstream rapportageoplossing, zoals een Power BI-rapport.

Inzicht in het data science-proces

Gegevensverkenning is een voorlopig onderzoek naar de gegevens waarmee de fase wordt ingesteld voor alle volgende stappen in het data science-proces.

Diagram of sequential steps in the data science process.

  1. Definieer het probleem: bepaal samen met zakelijke gebruikers en analisten wat het model moet voorspellen en wanneer het succesvol is.
  2. Haal de gegevens op: Zoek gegevensbronnen en krijg toegang door uw gegevens op te slaan in een Lakehouse.
  3. De gegevens voorbereiden: verken de gegevens door deze vanuit een Lakehouse in een notebook te lezen. Schoon en transformeer de gegevens op basis van de vereisten van het model.
  4. Het model trainen: Kies een algoritme en hyperparameterwaarden op basis van de evaluatie en fout door uw experimenten bij te houden met MLflow.
  5. Inzichten genereren: modelbatchscore gebruiken om de aangevraagde voorspellingen te genereren.

In deze module richt u zich op het laden van gegevens en het uitvoeren van gegevensverkenning. Als u in een notebook in Microsoft Fabric werkt, werkt u met Python om inzicht te hebben in verschillende typen gegevensdistributie. U leert het concept van ontbrekende gegevens en strategieën om ontbrekende gegevens effectief te verwerken. Ten slotte visualiseert u gegevens met behulp van verschillende technieken en bibliotheken voor gegevensvisualisatie.