Dela via


Livscykeln för affärsförstedelse i livscykeln för Team Datavetenskap Process

Den här artikeln beskriver de mål, uppgifter och slutprodukter som är associerade med affärstolkningsfasen i TDSP (Team Datavetenskap Process). Den här processen ger en rekommenderad livscykel som ditt team kan använda för att strukturera dina datavetenskapsprojekt. Livscykeln beskriver de viktigaste stegen som ditt team utför, ofta iterativt:

  • Affärsförstelse
  • Datainsamling och förståelse
  • Modellering
  • Distribution
  • Kundgodkännande

Här är en visuell representation av TDSP-livscykeln:

Diagram som visar stegen i TDSP-livscykeln.

Mål

Målet med fasen affärsförstedelse är att:

  • Ange de nyckelvariabler som fungerar som modellmål. Och ange måtten för målen, som avgör projektets framgång.

  • Identifiera relevanta datakällor som företaget har åtkomst till eller behöver hämta.

Så här slutför du uppgifterna

Fasen affärsförstedelse har två huvudsakliga uppgifter:

  • Definiera mål: Arbeta med din kund och andra intressenter för att förstå och identifiera affärsproblemen. Formulera frågor som definierar de affärsmål som datavetenskapsteknikerna kan rikta in sig på.

  • Identifiera datakällor: Hitta relevanta data som hjälper dig att besvara de frågor som definierar projektets mål.

Definiera mål

  1. Ett centralt mål i den här fasen är att identifiera de viktigaste affärsvariabler som analysen behöver förutsäga. Dessa variabler kallas modellmål och de mått som är associerade med dem används för att fastställa projektets framgång. Ett mål kan till exempel vara en försäljningsprognos eller sannolikheten för att en order är bedräglig.

  2. Definiera projektmålen genom att ställa och förfina skarpa frågor som är relevanta, specifika och entydiga. Data science är en process som använder namn och siffror för att besvara sådana frågor. Du använder vanligtvis datavetenskap eller maskininlärning för att besvara fem typer av frågor:

    • Hur mycket eller hur många? (regression)
    • Vilken kategori? (klassificering)
    • Vilken grupp? (klustring)
    • Är det här ovanligt? (avvikelseidentifiering)
    • Vilket alternativ bör tas? (rekommendation)

    Ta reda på vilka av dessa frågor som ska ställas och hur du kan uppnå dina affärsmål genom att besvara dem.

  3. Om du vill definiera projektteamet anger du medlemmarnas roller och ansvarsområden. Utveckla en milstolpeplan på hög nivå som du itererar på när du upptäcker mer information.

  4. Du måste definiera framgångsmåtten. Du kanske till exempel vill uppfylla en kundomsättningsförutsägelse med en noggrannhetsgrad på x procent i slutet av ett tremånadersprojekt. Med dessa data kan du erbjuda kundkampanjer för att minska omsättningen. Måtten måste vara SMART:

    • Specifikt
    • Measurable
    • Enchievable
    • R-elevant
    • Time-bound

Identifiera datakällor

Identifiera datakällor som innehåller kända exempel på svar på dina frågor. Leta efter följande data:

  • Data som är relevanta för frågan. Har du mått på målet och de funktioner som är relaterade till målet?
  • Data som är ett korrekt mått på modellmålet och de intressanta funktionerna.

Ett befintligt system kanske till exempel inte har de data som behövs för att lösa ett problem och uppnå ett projektmål. I den här situationen kan du behöva hitta externa datakällor eller uppdatera dina system för att samla in nya data.

Integrera med MLflow

Teamet använder inte MLflow-verktyg för affärstolkning, men det kan indirekt dra nytta av MLflows dokumentations- och experimentspårningsfunktioner. De här funktionerna kan ge insikter och historisk kontext för att anpassa projektet till affärsmål.

Artifacts

I det här skedet levererar ditt team:

  • Ett charterdokument. Charterdokumentet är ett levande dokument. Du uppdaterar dokumentet i hela projektet när du gör nya upptäckter och när affärskraven ändras. Nyckeln är att iterera i det här dokumentet. Lägg till mer information när du går igenom identifieringsprocessen. Informera kunden och andra intressenter om ändringarna och orsakerna till dem.

  • Datakällor. Du kan använda Azure Machine Learning för att hantera hantering av datakällor. Vi rekommenderar den här Azure-tjänsten för aktiva och särskilt stora projekt eftersom den integreras med MLflow.

  • Dataordlistor. Det här dokumentet innehåller beskrivningar av de data som klienten tillhandahåller. Dessa beskrivningar innehåller information om schemat (datatyperna och information om verifieringsreglerna, om sådana finns) och diagram för entitetsrelation, om sådana finns tillgängliga. Ditt team bör dokumentera en del av eller all den här informationen.

Peer-granskad litteratur

Forskare publicerar studier om TDSP i peer-granskad litteratur. Citaten ger en möjlighet att undersöka andra program eller liknande idéer som TDSP, inklusive livscykelsteget för affärsförstedelse.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudförfattare:

Om du vill se icke-offentliga LinkedIn-profiler loggar du in på LinkedIn.

I de här artiklarna beskrivs de andra stegen i TDSP-livscykeln: