Förstå datavetenskapsprocessen
Ett vanligt sätt att extrahera insikter från data är att visualisera data. När du har komplexa datauppsättningar kanske du vill gå djupare och försöka hitta invecklade mönster i data.
Som dataexpert kan du träna maskininlärningsmodeller för att hitta mönster i dina data. Du kan använda dessa mönster för att generera nya insikter eller förutsägelser. Du kan till exempel förutsäga det förväntade antalet produkter som du förväntar dig att sälja under den kommande veckan.
Även om det är viktigt att träna modellen är det inte den enda uppgiften i ett datavetenskapsprojekt. Innan vi utforskar en typisk datavetenskapsprocess ska vi utforska vanliga maskininlärningsmodeller som du kan träna.
Utforska vanliga maskininlärningsmodeller
Syftet med maskininlärning är att träna modeller som kan identifiera mönster i stora mängder data. Du kan sedan använda mönstren för att göra förutsägelser som ger dig nya insikter som du kan vidta åtgärder för.
Möjligheterna med maskininlärning kan verka oändliga, så vi börjar med att förstå de fyra vanliga typerna av maskininlärningsmodeller:
- Klassificering: Förutsäga ett kategoriskt värde, till exempel om en kund kan få omsättning.
- Regression: Förutsäga ett numeriskt värde som priset på en produkt.
- Klustring: Gruppera liknande datapunkter i kluster eller grupper.
- Prognostisering: Förutsäga framtida numeriska värden baserat på tidsseriedata som den förväntade försäljningen för den kommande månaden.
För att avgöra vilken typ av maskininlärningsmodell du behöver träna måste du först förstå affärsproblemet och de data som är tillgängliga för dig.
Förstå datavetenskapsprocessen
För att träna en maskininlärningsmodell omfattar processen vanligtvis följande steg:
- Definiera problemet: Bestäm tillsammans med företagsanvändare och analytiker vad modellen ska förutsäga och när den lyckas.
- Hämta data: Hitta datakällor och få åtkomst genom att lagra dina data i en Lakehouse.
- Förbered data: Utforska data genom att läsa dem från en Lakehouse till en notebook-fil. Rensa och transformera data baserat på modellens krav.
- Träna modellen: Välj en algoritm och hyperparametervärden baserat på utvärdering och fel genom att spåra dina experiment med MLflow.
- Generera insikter: Använd batchbedömning för modell för att generera de begärda förutsägelserna.
Som datavetare ägnas större delen av din tid åt att förbereda data och träna modellen. Hur du förbereder data och vilken algoritm du väljer att träna en modell kan påverka modellens framgång.
Du kan förbereda och träna en modell med hjälp av bibliotek med öppen källkod som är tillgängliga för valfritt språk. Om du till exempel arbetar med Python kan du förbereda data med Pandas och Numpy och träna en modell med bibliotek som Scikit-Learn, PyTorch eller SynapseML.
När du experimenterar vill du ha en översikt över alla olika modeller som du har tränat. Du vill förstå hur dina val påverkar modellens framgång. Genom att spåra dina experiment med MLflow i Microsoft Fabric kan du enkelt hantera och distribuera de modeller som du har tränat.