Inleiding
Als data scientist besteedt u de meeste tijd aan het trainen van machine learning-modellen om complexe patronen in uw gegevens te identificeren. Na de training wilt u de modellen gebruiken om waardevolle inzichten op te halen.
Nadat u bijvoorbeeld een model hebt getraind op historische verkoopgegevens, kunt u de prognose van de komende week genereren. Of door klantgegevens te gebruiken, traint u een model om klanten te identificeren die waarschijnlijk zullen worden verloop. Wat u ook hebt, na het trainen van het model, wilt u het model toepassen op een nieuwe gegevensset om voorspellingen te genereren.
Met Microsoft Fabric kunt u uw model toepassen nadat u het hebt bijgehouden met MLflow.
Inzicht in het data science-proces
Een data science-project omvat doorgaans de volgende fasen:
- Definieer het probleem: bepaal samen met zakelijke gebruikers en analisten wat het model moet voorspellen en wanneer het succesvol is.
- Haal de gegevens op: Zoek gegevensbronnen en krijg toegang door uw gegevens op te slaan in een lakehouse.
- De gegevens voorbereiden: verken de gegevens door deze vanuit een lakehouse in een notebook te lezen. Schoon en transformeer de gegevens op basis van de vereisten van het model.
- Het model trainen: Kies een algoritme en hyperparameterwaarden op basis van de evaluatie en fout door uw experimenten bij te houden met MLflow.
- Voorspellingen genereren: modelbatchscore gebruiken om de aangevraagde voorspellingen te genereren.
In deze module richt u zich op het genereren van batchvoorspellingen. Als u voorspellingen wilt ophalen van een getraind model, moet u het model eerst opslaan in de Microsoft Fabric-werkruimte. Vervolgens kunt u uw nieuwe gegevens voorbereiden en het model toepassen op de gegevens om batchvoorspellingen te genereren. Ten slotte kunt u de voorspellingen opslaan in Microsoft Fabric voor verdere verwerking, zoals het visualiseren van de gegevens in een Power BI-rapport.